home *** CD-ROM | disk | FTP | other *** search
/ Sprite 1984 - 1993 / Sprite 1984 - 1993.iso / admin / bugs / bugs.archive.1990 < prev    next >
Encoding:
Text File  |  1992-04-17  |  710.6 KB  |  22,872 lines

  1. 812.
  2. Date: Mon, 1 Jan 90 13:52:52 PST
  3. From: tve (Thorsten von Eicken)
  4. Subject: migrating a process group
  5.  
  6. I'm starting to use migration for things other than pmake and I regularly
  7. would like to migrate a "program" which consists of a number of processes.
  8. For example a shell script which invokes many awk scripts and c programs.
  9. Now, when I "mig -p" the top shell process, the migartion has no effect
  10. until the child processes (which do the real work) terminate and the shell
  11. script starts new ones. If I migrate the childs, then new childs will reappear
  12. on my machine. Migrating all processes requires a large number of idle
  13. hosts since each process must be migrated separately.
  14.  
  15. What I would like, is to be able to either specify more than one process
  16. per mig command or to be able to specify a parent process and have it
  17. migrated with all its childs. Note that in both cases all processes should
  18. be migrated onto the same host. (I would prefer the "migrate parent+childs"
  19. option).
  20.  
  21. Any comments? Difficult to do?
  22.  
  23.  
  24.  
  25.  
  26. 813.
  27. Date: Mon, 1 Jan 90 18:54:55 PST
  28. From: tve (Thorsten von Eicken)
  29. Subject: re-migration desn't work
  30.  
  31. Once a process is migrated to a host, it's pretty much stuck there. Children
  32. of this process are also stuck there.
  33.  
  34. Examples:
  35. 1) I migrated a process. This process forks a few times. Now that host
  36. is overloaded. I have no way of redistributing the processes, except for
  37. evicting all processes from that host and then migrating the processes
  38. again.
  39. 2) I migrated a shell script. This shell script starts lots of processes,
  40. and asks mig to migrate each of them. Mig returns "Error execing program:
  41. invalid argument" and the process is NOT executed. In other words: you are
  42. allowed to migrate once and only once. If you try again, you die!
  43.  
  44. It seems that the migration mechanism should be more general: "shove this
  45. process onto an idle hosts different from the one it's on!". I don't
  46. know if it's the mig command which is too simple minded or if the kernel
  47. just doesn't allow to push processes around arbitrarily.
  48.  
  49.  
  50.  
  51.  
  52.  
  53. 814.
  54. Date: Tue, 2 Jan 90 01:20:43 PST
  55. From: tve (Thorsten von Eicken)
  56. Subject: manual page for ggraph hopelessly out of date
  57.  
  58. some commands listed don't exist, others exist but aren't listed.
  59. Is anyone maintaining this program?
  60.  
  61.  
  62.  
  63.  
  64. 815.
  65. Date: Tue, 2 Jan 90 03:30:26 PST
  66. From: tve (Thorsten von Eicken)
  67. Subject: more compiler problems on sun4
  68.  
  69. Well, the new version of xgraph I just got doesn't compil either, but it's
  70. a different story this time.  When compiling on the sun4, a lot of symbols
  71. are missing when the final linking is done. When compiling on a sun3 for
  72. a sun4, everything works fine. Needless to say that everything is fine when
  73. compiling on sun3 for sun3 and on ds3100s. I think I saw this kind of bug
  74. a few weeks ago and signalled it. I think it was supposed to be fixed.
  75. To reproduce:
  76.     cd /X11R3/src/cmds/xgraph
  77.     pmake clean
  78.     pmake
  79. (all on a sun4)
  80.  
  81.  
  82.  
  83.  
  84. 816.
  85. Date: Tue, 2 Jan 90 10:43:05 PST
  86. From: brent (Brent Welch)
  87. Subject: mail duplication
  88.  
  89. Is this a known bug?
  90.  
  91. Scenario:  reading lots of mail, and during this time a new message
  92. arrives, plus I send a new message to spriters as about the last thing
  93. I do in the mail session.  I quit mail and get "new mail has arrived".
  94. I immediatly go back into mail and see a new message (not the one
  95. I sent), which I read and delete.  I exit mail a second time and get another
  96. "new mail has arrived" message.  When I reenter mail the message
  97. which I read and deleted last time has reappeared, along with the
  98. memssage I sent my self in the first mail session.  This has happend
  99. on more than one occasion.  Is this some flaw in the mail spool
  100. file locking protocol?  Anybody know what that locking strategy is?
  101.  
  102.  
  103.  
  104.  
  105. 817.
  106. Date: Wed, 3 Jan 90 09:11:01 PST
  107. From: ouster (John Ousterhout)
  108. Subject: Trashed file
  109.  
  110. I found another trashed file today:  /sprite/lib/forms/cmd.man.
  111. I moved the file to /sprite/trashed/sprite-lib-forms-cmd.man.
  112. Since this was an RCS-ed file I checked out a new version and
  113. diff-ed them to find out exactly what had changed.  The first
  114. 1024 bytes of the trashed file were the same as the original,
  115. but everything after that was different, apparently consisting
  116. of a piece of someone's bibliography database.  Interestingly,
  117. the total length of the file was unchanged by the substitution.
  118. Brent, could your recently-fixed cache bug explain this?  The
  119. trashing could have occurred a long time ago.
  120.  
  121.  
  122.  
  123.  
  124. 818.
  125. Date: Thu, 4 Jan 90 10:47:45 PST
  126. From: brent (Brent Welch)
  127. Subject: gremlin is broken
  128.  
  129. Gremlin behaves terribly for me running on a Sun3
  130. under X11R3.  Whatever gremlin does when it flashes the
  131. selection and moves (or copies) the selection is busted
  132. so that the screen gets more and more trashed as you work.
  133. Occasionally, for example, the mouse cursor ges caught by
  134. a flashing selection and remains behind.  I'm pretty sure
  135. this is a server problem because an old (R2) version of
  136. gremlin exibits the same behavior.
  137.  
  138.  
  139.  
  140.  
  141.  
  142. 819.
  143. Date: Fri, 05 Jan 90 14:38:02 PST
  144. From: rab (Robert A. Bruce)
  145. Subject: Re: gcc bug
  146.  
  147. The bug that JohnH reported about compiling perl is a byte-order
  148. bug that occurs when a procedure that passes a double is compiled
  149. for a sun3 on a ds3100.
  150.  
  151.     main() { foo(1.0); }
  152.  
  153. --------------------- Compiled on a ds3100 --------------------------
  154.  
  155. _main:
  156.     link a6,#0
  157.     movel #1072693248,sp@-      <--- These two instructions
  158.     clrl sp@-                   <---  are in the wrong order.
  159.     jbsr _foo
  160.     unlk a6
  161.     rts
  162. -----------------------------------------------------------------------
  163.  
  164. Until this gets fixed, don't compile sun3 floating point stuff on the
  165. decStations.
  166.  
  167.  
  168.  
  169.  
  170.  
  171. 820.
  172. Date: Sun, 7 Jan 90 20:01:59 PST
  173. From: tve (Thorsten von Eicken)
  174. Subject: on the ds3100, gcc and cc have different struct return conventions
  175.  
  176. Example:
  177. _ file foo.c
  178. struct goo {int i,j; };
  179. extern struct goo hoo(int);
  180. main()
  181. {
  182.     struct goo l;
  183.     l = hoo(3);
  184.     printf("result: %d %d (=?= 3 4)\n", l.i, l.j);
  185. }
  186.  
  187. _ file hoo.c
  188. struct goo { int i,j; };
  189.  
  190. struct goo
  191. hoo(int k)
  192. {
  193.     struct goo l;
  194.     l.i = k;
  195.     l.j = k+1;
  196.     return l;
  197. }
  198.  
  199. _ Now compile one with gcc, the other with cc, link together and watch
  200. a "Bad user TLB fault" come up.
  201. If you look at the assembly output, it is evident that things can't
  202. work together. Is there a magic flag to gcc to convince it to use
  203. the same convention as cc?
  204.  
  205.  
  206.  
  207.  
  208. 821.
  209. Date: Sun, 7 Jan 90 21:08:44 PST
  210. From: eklee (Edward K. Lee)
  211. Subject: lost files
  212.  
  213. Yesterday (Saturday), I created a directory named ~eklee/mult to compile
  214. a modified version of Pete's mult program.
  215. I was executing ~eklee/mult/sun4.md/mult from raid when raid crashed (a bug
  216. in my kernel).
  217. I then discovered that everything, including all subdirectories (even . and
  218. ..) in the mult directory were missing.
  219. (I'm not sure if the two events are related.)
  220. Afterwards, I was unable to create files in the mult directory.
  221. I only lost a small amount of work which I've since recreated.
  222. Here's a transcript which illustrates the strange behavior.
  223. ----------------------------------------
  224. forgery% ls -a mult
  225. total 0
  226. forgery% mkdir jnk
  227. forgery% ls -a jnk
  228. total 4
  229.    1 ./           3 ../
  230. forgery% find mult -name a
  231. find: bad directory <mult>
  232. forgery% cat > mult/t
  233. hello
  234. <>
  235. forgery% ls -a mult
  236. total 0
  237. forgery% 
  238. ----------------------------------------
  239.  
  240.  
  241.  
  242.  
  243. 822.
  244. Date: Mon, 8 Jan 90 11:52:11 PST
  245. From: brent (Brent Welch)
  246. Subject: mkscsidev
  247.  
  248. I used the mkscsidev script to create the device file
  249. for the exabyte on Allspice.  Two things.  First, I still
  250. haven't found the magic place where the HBA type number
  251. is defined.  I reverse engineered another device file
  252. to determine that the SCSI3 is probably type 0.
  253. Second, the device type of the device file created
  254. corresponded to a disk (4) not a tape (5).  The unit
  255. number was correct for HBA #3, Target 5, but I had
  256. to generate the device file by hand in order to get
  257. the right device type.
  258.  
  259.  
  260.  
  261.  
  262. 823.
  263. Date: Tue, 09 Jan 90 23:00:13 PST
  264. From: Fred Douglis <douglis>
  265. Subject: tx infinite loop on data file
  266.  
  267. I inadvertently tried to cat a non-ascii file and tx went into an
  268. infinite loop on me.  Try catting ~douglis/test-tx.  I think it may
  269. have something to do with the fact that the line is very long and tx
  270. may think it's some sort of command.  
  271.  
  272. Fred
  273.  
  274.  
  275.  
  276.  
  277. 824.
  278. Date: Wed, 10 Jan 90 13:04:06 PST
  279. From: brent (Brent Welch)
  280. Subject: bad sun4 Exabyte driver?
  281.  
  282. Putting the Exabyte on SCSI#0 doesn't affect its behavior.
  283. I was again able to write a tar tape, but when reading it
  284. back I got a SCSI select failure after about 100K.  The
  285. tar file was about 4Megs, and I was able to read it
  286. on Murder's exabyte ok.  I suspect a timing problem with
  287. the Sun4 version of the driver.  We may have to add so
  288. select retries in case the tape drive is getting into
  289. some funny state where it takes a long time to respond.
  290.  
  291.  
  292.  
  293. 825.
  294. Date: Wed, 10 Jan 90 16:17:11 PST
  295. From: Fred Douglis <douglis>
  296. Subject: trashed file
  297.  
  298. /c/stats/sloth/6Jul should be a directory; instead ls claims it's a
  299. socket and update doesn't know how to do anything with it.  
  300.  
  301.  
  302.  
  303.  
  304. 826.
  305. Date: Fri, 12 Jan 90 10:27:42 PST
  306. From: brent (Brent Welch)
  307. Subject: Sequent sun 3/50
  308.  
  309. The latest kernel (1.051) still breaks on the 3/50 up at Sequent.
  310. The system runs longer than it used to, but eventually
  311. it freaks out and there is apparently bad data in the cache.
  312. The symptom is that execs() fail because of a bad a.out header.
  313. I've told fubar to try fixing the size of the file system cache
  314. to see if it behaves better.  I think there is either another
  315. hideous bug in the cache, or (I hope) something about the
  316. 3/50 architecture that we aren't taking into account.  I think
  317. we should get our hands on a 3/50 so we can do some testing
  318. here in a controlled situation - let's make this an agenda item.
  319.  
  320.  
  321.  
  322. 827.
  323. Date: Fri, 12 Jan 90 11:49:22 PST
  324. From: ouster (John Ousterhout)
  325. Subject: Bad magic number
  326.  
  327. When I remade the mx library for the Sun4, using a DS3100 for the
  328. compilation, I got a "bad magic number" error when I tried to
  329. use the resulting .a file in a link (where the link was also run
  330. on a DS3100, using gcc).  Here's some sample output:
  331.  
  332. piracy: pmake install TM=sun4
  333. --- sun4.md/mx.o ---
  334. rm -f sun4.md/mx.o
  335. gcc  -g -O -msun4 -Dsprite -Dsun4  -I. -Isun4.md -c mx.c -o sun4.md/mx.o
  336. --- sun4.md/mx ---
  337. rm -f sun4.md/mx
  338. gcc  -g -O -msun4 -Dsprite -Dsun4  -I. -Isun4.md -o sun4.md/mx  sun4.md/mx.o -lmx_g -lsx_g -lcmd -ltcl -lX11
  339. ld: Bad magic number in /sprite/lib/sun4.md/libmx_g.a(gth:1)
  340. *** Error code 1
  341.  
  342.  
  343.  
  344.  
  345. 828.
  346. Date: Fri, 12 Jan 90 11:53:51 PST
  347. From: ouster (John Ousterhout)
  348. Subject: Re: tx infinite loop on data file
  349.  
  350. Fred reported the following problem:
  351.  
  352.     I inadvertently tried to cat a non-ascii file and tx went into an
  353.     infinite loop on me.  Try catting ~douglis/test-tx.  I think it may
  354.     have something to do with the fact that the line is very long and tx
  355.     may think it's some sort of command.
  356.  
  357. I've fixed this bug and I'm currently installing new versions of Mx and
  358. Tx.  I believe that this same bug is responsible for a similar infinite
  359. loop that jhh reported a while ago.  Thanks for the repeatable trigger,
  360. Fred.
  361.  
  362.  
  363.  
  364. 829.
  365. Date: Fri, 12 Jan 90 16:46:43 PST
  366. From: Fred Douglis <douglis>
  367. Subject: pdev man page out of date
  368.  
  369. it refers to byteOrder as a field in an ioctl struct, but in fact it's
  370. "format".   I'll change that one mistake, but it suggests there might
  371. be other outdated fields or parameters mentioned in the man page that
  372. would bear reexamination.
  373.  
  374.  
  375.  
  376.  
  377. 830.
  378. Date: Fri, 12 Jan 90 17:36:30 PST
  379. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  380. Subject: unix copy of sources wrong
  381.  
  382. The directory /sprite3/src/kernel/libc on unix does not contain any source
  383. files.
  384.  
  385.  
  386.  
  387.  
  388. 831.
  389. Date: Sun, 14 Jan 90 11:45:29 PST
  390. From: tve (Thorsten von Eicken)
  391. Subject: /sprite/admin/userLog is not a multiple of 81 bytes
  392.  
  393. I keep getting that whenever I do a finger. Sounds like something is
  394. broken!? It started late yesterday evening.
  395.  
  396.  
  397.  
  398.  
  399. 832.
  400. Date: Sun, 14 Jan 90 16:37:05 PST
  401. From: tve (Thorsten von Eicken)
  402. Subject: spritemon -v seems to invent memory
  403.  
  404. On crackle, a sun4 with 12Megs of physical memory, if I run
  405. spritemon -vM -fM I am usually in a state with 1/4 to 1/3 of a Meg
  406. devoted to the fs cache and 12 megs devoted to VM. Where does
  407. the extra physical memory come from? Not to mention the memory
  408. used by the kernel...
  409.  
  410.  
  411.  
  412.  
  413. 833.
  414. Date: Sun, 14 Jan 90 16:54:03 PST
  415. From: tve (Thorsten von Eicken)
  416. Subject: Re: curious spritemon values for -f and -v
  417.  
  418. If I start a spritemon -f% -v%, I get about 50% user VM size. Does this mean
  419. there is a problem in deciding what the size of a "thing" returned by Fs_Cmd
  420. and Vm_Cmd is? I saw that there is no machine dependent code of that sort in
  421. spritemon.
  422.  
  423.  
  424.  
  425.  
  426. 834.
  427. Date: Sun, 14 Jan 90 22:35:19 PST
  428. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  429. Subject: xproof on a ds3100
  430.  
  431. Xproof on a monochrome ds3100 always puts my X server into the debugger.
  432. For an example type "xproof troff.output" in ~jhh/proj/paper.
  433.  
  434.  
  435.  
  436.  
  437. 835.
  438. Date: Sun, 14 Jan 90 23:13:23 PST
  439. From: tve (Thorsten von Eicken)
  440. Subject: vmcmd -R 1 creates havoc on sun4c
  441.  
  442. This enables the "use fs read-ahead" in VM. Of course I used a
  443. fscmd -r 1 command before. Why is this not the default anyway?
  444.  
  445.  
  446.  
  447. 836.
  448. Date: Mon, 15 Jan 90 11:33:12 PST
  449. From: brent (Brent Welch)
  450. Subject: Re: vmcmd -R 1 creates havoc on sun4c
  451.  
  452. file system read ahead is not ordinarily enabled because
  453. it doesn't (or didn't) provide much of a win.  We suffer
  454. a context switch to a different process in the implementation
  455. of read ahead, and we were never getting more than one
  456. block per disk revolution anyway.  So much for background.
  457.  
  458. The VM system either calls Fs_PageRead or Fs_Read to fill
  459. in a page.  The former has smarts about the cache and remote
  460. swap files - it tries to avoid simply moving a VM page into
  461. the FS cache.  The later is used in an attempt to gain
  462. something from FS read ahead.  If this breaks (can you
  463. describe exactly what the "havoc" is?) we should fix it.
  464.     brent
  465. ps. So if you "vmcmd -R 1" you change the system from using
  466. Fs_PageRead to Fs_Read, the call is made from VmFileServerRead.
  467.  
  468.  
  469.  
  470.  
  471. 837.
  472. Date: Mon, 15 Jan 90 11:45:17 PST
  473. From: brent (Brent Welch)
  474. Subject: spritemon -v
  475.  
  476. The spritemon program only computes megabytes right on hosts
  477. with 8K page sizes, oops.  I'll fix it to pay attention to pagesize.
  478.  
  479.  
  480.  
  481.  
  482. 838.
  483. Date: Mon, 15 Jan 90 13:53:52 PST
  484. From: tve (Thorsten von Eicken)
  485. Subject: intricate problem with filesystem read-ahead and migration
  486.  
  487. I have the following scenario:
  488. Machines: crackle and burble
  489. Command: pmake dependall (with sun3, sun4, ds3100, about 20 source files)
  490. Symptom:
  491. --- dependsun3 ---
  492. cannot read all of apGenerate.c
  493.  
  494. When: if I turn file system read-ahead on on burble (fscmd -r 1) then the
  495. pmake depend which gets migrated to burble hits this mysterious error.
  496. If I say "fscmd -r 0" on burble, then "pmake dependall" on crackle,
  497. everything is fine. Then I immediately say "fscmd -r 0" on burble and
  498. "pmake dependall" and I get this error reliably. I can switch back and forth
  499. between the two states.
  500. Where: the directory is ~octtools/src/lib/ace, but I don't really think
  501. it matters (except that there are quite a lot of files, and many more are
  502. included, so the fs cache gets to work hard).
  503.  
  504.  
  505.  
  506.  
  507. 839.
  508. Date: Mon, 15 Jan 90 18:50:54 PST
  509. From: tve (Thorsten von Eicken)
  510. Subject: mkmf.md doesn't allow source files to start with digits
  511.  
  512. I fixed it to allow that since I don't see any reason to disallow it.
  513. If there are objections, please back out and tell me why.
  514.  
  515.  
  516.  
  517.  
  518. 840.
  519. Date: Mon, 15 Jan 90 19:26:46 PST
  520. From: tve (Thorsten von Eicken)
  521. Subject: sun4 c compiler generates illegal assembly output
  522.  
  523. This results in a "/tmp/cc276319.s:107:Illegal operands" style message.
  524. The culprit line looks like this:
  525.         ldd [%lo(_AceG+112)+%g1],%f0
  526. by changing it to
  527.         ldd [%g1+%lo(_AceG+112)],%f0 
  528. everything is fine.
  529. To test: cd ~octtools/src/lib/ace; cc '-DCADROOT=\"/users/octtools\"' -O -msun4 -Dsprite -Dsun4  -I. -Isun4.md -I/users/octtools/lib/include -c genMove.c
  530.  
  531.  
  532.  
  533.  
  534. 841.
  535. Date: Tue, 16 Jan 90 10:47:21 PST
  536. From: brent (Brent Welch)
  537. Subject: 3/50 dma bug
  538.  
  539. After some further investigation I have determined that
  540. the first 16 bits of the cache block are corrupted after
  541. a Disk read.  This doesn't happen on every read.  I don't
  542. know the SCSI code well enough to debug the DMA system.
  543. There is code in the SCSI driver that is #ifdef'd out
  544. that fishes the last short-word from the DMA fifo.  I
  545. can't see how this would mess up the beginning of a buffer,
  546. unless the left-over lingers around til the next time?
  547. Who knows.  I have to stop working on this, but I would really
  548. appreciate it if someone else would carry the ball. (hint hint)
  549.  
  550.  
  551.  
  552.  
  553. 842.
  554. Date: Tue, 16 Jan 90 14:39:29 PST
  555. From: david@rosemary.Berkeley.EDU (David A. Wood)
  556. Subject: rcp and ftp 
  557.  
  558. Don't seem to work for transfering files from Sprite to UNIX.
  559. I'vd tried all combinations (initiate on Unix, initiate on Sprite) and
  560. it rarely transfers more than 100K bytes (although one try did transfer
  561. 700K).  On the UNIX side for rcp I never get an error message.
  562. Sprite rcp says something like 'lost connection'.
  563. Unix side ftp says 'netin:connnection reset by peer'.
  564. Sprite side ftp says 'netout: broken pipe'.
  565.  
  566.  
  567.  
  568.  
  569. 843.
  570. Date: Tue, 16 Jan 90 15:10:12 PST
  571. From: tve (Thorsten von Eicken)
  572. Subject: problems when making libraries (timestamp ?)
  573.  
  574. When I "pmake install" a library, I often get the following scenario:
  575.     _ One or two source files are out of date. They get recompiled.
  576.     _ The "ar" command which adds the new .o files to the .a file
  577.       adds the recompiled .o file *plus* a few additional .o files
  578.       which were not out of date and not recompiled. These .o files
  579.       of course don't exist and ar print out error messages.
  580. I suspect that this is due to unsychronized clocks where the .o file is
  581. more recent than the corresponding .c file (correct) but also more recent
  582. than the .a file (incorrect) because things were done on different machines
  583. (migration).
  584. Would running rdate more often than daily alleviate this? Why is there no
  585. timed running in sprite?
  586.  
  587. Here's an example of above problem:
  588. [crackle rpc] pmake install
  589. pmake: Lockfile owned by you -- ignoring it
  590. --- installman ---
  591. No man pages for library rpc?  Please write some.
  592. --- sun4.md/appTemplate.o ---
  593. rm -f sun4.md/appTemplate.o
  594. cc  "-DCADROOT=\"/users/octtools\"" "-DCUR_DATE=\"`date | awk '{print %2, %3, %6}'`\"" "-DCUR_TIME=\"`date | awk '{print %4}'`\"" -O -msun4 -Dsprite -Dsun4  -I. -Isun4.md -I/users/octtools/lib/include -c appTemplate.c -o sun4.md/appTemplate.o
  595. --- sun4.md/librpc.a ---
  596. ar r sun4.md/librpc.a sun4.md/appReg.o sun4.md/appTemplate.o sun4.md/rpc.o
  597. ar: cannot open sun4.md/appReg.o
  598. ar: cannot open sun4.md/rpc.o
  599. /sprite/cmds.sun4/ranlib sun4.md/librpc.a
  600. rm -rf sun4.md/appDM.o sun4.md/appInit.o sun4.md/appNet.o sun4.md/appOct.o sun4.md/appRPC.o sun4.md/appReg.o sun4.md/appTemplate.o sun4.md/appVem.o sun4.md/rpc.o
  601. --- /users/octtools/lib/sun4.md/librpc.a ---
  602. rm -f /users/octtools/lib/sun4.md/librpc.a
  603. /sprite/cmds.sun4/cp sun4.md/librpc.a /users/octtools/lib/sun4.md/librpc.a
  604. /sprite/cmds.sun4/ranlib /users/octtools/lib/sun4.md/librpc.a
  605.  
  606.  
  607.  
  608.  
  609. 844.
  610. Date: Tue, 16 Jan 90 15:15:41 PST
  611. From: eklee (Edward K. Lee)
  612. Subject: xbiff dies on ds3100
  613.  
  614. Xbiff dies every 12 to 24 hours on ds3100's (forgery).
  615.  
  616. Ed
  617. ----
  618. forgery% xbiff -B &
  619. [2] e2b32
  620. forgery% XIO: invalid argument
  621.  
  622.  
  623.  
  624.  
  625. 845.
  626. Date: Wed, 17 Jan 90 19:49:28 PST
  627. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  628. Subject: distribution bug
  629.  
  630.  
  631. There are several soft links with absolute pathnames in the distribution
  632. root directory that really should be relative pathnames.  The link
  633. from boot/cmds -> /sprite/cmds doesn't work so well if I have the disk
  634. mounted as /t6.  I ended up copying a test version of initsprite to
  635. /sprite/cmds. I think that only the links in the boot directory
  636. matter, but there may be others waiting to bite people.
  637.  
  638.  
  639.  
  640.  
  641. 846.
  642. Date: Thu, 18 Jan 90 11:58:02 PST
  643. From: brent (Brent Welch)
  644. Subject: nfsmount /spur is dying
  645.  
  646. nfsmount is repeatably failing on /spur.  The first attempt
  647. to open a file relative to a working direction under /spur fails.
  648. I don't have time to debug nfsmount right now, perhaps I will
  649. later this afternoon.  I can't tell much from gdb because
  650. it is apparently in Sig_Send() after getting some random signal.
  651. I have to step through this.  In the mean time /spur is
  652. unavailable via nfsmount (someone could try mounting it on assault),
  653. and NFS access to other systems might also be flakey.
  654.  
  655.  
  656.  
  657.  
  658. 847.
  659. Date: Thu, 18 Jan 90 14:40:20 PST
  660. From: brent (Brent Welch)
  661. Subject: /spur is back
  662.  
  663. The bottom line is that /spur is back, and the other NFS
  664. partitions seem ok.
  665.  
  666. However, Oregano was definitely in a weird state, but I
  667. would have had to run the kernel debugger to figure it out.
  668. When I went to debug nfsmount, for example, I found that
  669. I could no longer even start up the pseudo-file-system.
  670. Some piece of internal state (maybe even on mint, which
  671. stores the /spur remote link) was goofed up.  I patched
  672. around this situation by recreating the /spur remote link
  673. under a different inode number.  This magic ensures that
  674. the state associated with the old remote link doesn't get
  675. in the way.  Anyway, I was able to restart the nfsmount
  676. process and I was not able to crash it.  This is basically
  677. an unresolved pseudo-file-system wierdness.
  678.  
  679.  
  680.  
  681.  
  682. 848.
  683. Date: Thu, 18 Jan 90 16:03:18 PST
  684. From: elm (ethan miller)
  685. Subject: bus errors
  686.  
  687. I get the following bus errors occasionally when I fork off a new
  688. shell (doesn't matter which kind):
  689.  
  690. MachPageFault: Bus error in user proc 93e20, PC = 12100, addr = 80a26020
  691.     BR Reg 80
  692.  
  693. These bugs occur quite often (once every 10 process forks).  In addition,
  694. these processes refuse to die even when I use killdebug or kill -9 on them.
  695.  
  696. This is on a color SparcStation (terrorism).
  697.  
  698.  
  699.  
  700.  
  701. 849.
  702. Date: Thu, 18 Jan 90 16:15:56 PST
  703. From: tve (Thorsten von Eicken)
  704. Subject: sun4 cc get bus error when run on sun4, all ok when on sun3
  705.  
  706. Try the following few lines:
  707.  
  708. /* contour.c - contour plotting program
  709.  *
  710.  * Copyright (C) 1990 by the regents of the University of California
  711.  * Author - Thorsten von Eicken
  712.  *
  713.  */
  714.  
  715. double    *data;
  716.  
  717. static void
  718. cont(double clo)
  719. {
  720.     int    x;
  721.     double    d0, d1;
  722.  
  723.     d1 = data[x];
  724.     if((d0 < clo) != (d1 < clo)) {
  725.     }
  726. }
  727.  
  728.  
  729.  
  730.  
  731. 850.
  732. Date: Thu, 18 Jan 90 16:22:50 PST
  733. From: eklee (Edward K. Lee)
  734. Subject: cc hangs on ds3100
  735.  
  736. forgery% pwd
  737. /users/eklee/combin
  738. forgery% cc  -g -L../sim/ds3100.md -g3 -O -Dds3100 -Dsprite -Uultrix -I/users/eklee/lib/include -I.   -Ids3100.md -I/sprite/lib/include -I/sprite/lib/include/ds3100.md -I../sim -I../sim/ds3100.md -c combin.c -o ds3100.md/combin.o
  739. <in another window>
  740. forgery% ps -au
  741. USER     PID   %CPU %MEM  SIZE   RSS STATE   TIME PR COMMAND
  742. eklee    c2b42 81.4  2.4  1728   580 READY   0:17    ugen -G 8 -EL -g3 -O2 ...
  743.     ...
  744.  
  745. Cc works for other files but hangs on combin.c.
  746.  
  747. The problem seems to have been caused by declaring a structure as a formal
  748. parameter.  When I changed the structure to a pointer to a structure, the
  749. problem went away.
  750.  
  751.  
  752.  
  753.  
  754. 851.
  755. Date: Thu, 18 Jan 90 20:11:53 PST
  756. From: tve (Thorsten von Eicken)
  757. Subject: pmake gives "Error code 16"
  758.  
  759. I'm running lots of simulations using pmake and every 20 minutes or so (or
  760. in other terms, about every 70 processes) it pmake dies with something
  761. like:
  762. --- seqs/S-s1-t2.62 ---
  763. *** Error code 16
  764. pmake: 1 error
  765.  
  766. Now the simulator doesn't return errors, so what does this error code
  767. mean? I tried to RTFM but didn't find anything.
  768.     -Thorsten
  769. (I'm gonna use the -k flag now...)
  770.  
  771.  
  772.  
  773.  
  774. 852.
  775. Date: Fri, 19 Jan 90 14:34:41 PST
  776. From: brent (Brent Welch)
  777. Subject: 3/50 disk status
  778.  
  779. Well, the good news is that I got my 3/50 to boot off
  780. of its disk, finally.  The bad news is that my one
  781. hunch about the failing DMA didn't pan out.  I still
  782. get some random data returned, even after adding
  783. code to deal with the leftover half-word in the DMA fifo.
  784. This funny situation turns up, but it doesn't coincide
  785. with the bad data I get.  So, I'm still stumped, and I
  786. can't say how much energy I personally have to work on
  787. this stupid driver.
  788.  
  789.  
  790.  
  791.  
  792. 853.
  793. Date: Mon, 22 Jan 90 09:11:23 PST
  794. From: Fred Douglis <douglis>
  795. Subject: ds3100 out of memory, wouldn't enter debugger
  796.  
  797. kvetching died while i was gone.  it said it was out of memory.  
  798. however, debugging it from dill got timeouts.  anyone know of
  799. something running on kvetching at the time, or why it might not
  800. have entered the debugger properly?  (it had the normal msg about
  801. entering, so i don't know what's up.  the net is fine since i was able
  802. to start it rebooting.)
  803.  
  804.  
  805.  
  806.  
  807. 854.
  808. Date: Mon, 22 Jan 90 10:23:35 PST
  809. From: Fred Douglis <douglis>
  810. Subject: Re: problems when making libraries (timestamp ?) 
  811.  
  812. FYI, the following is in crontab:
  813.  
  814.     #
  815.     # Synchronize your watches
  816.     #
  817.     0 4 * * * root /sprite/admin/Rdate >& /dev/syslog
  818.  
  819. Perhaps this isn't being run properly, but there is certainly an
  820. attempt to synchronize clocks once per day.  Running timed would be
  821. nice; as I recall, porting it was non-trivial and we decided against
  822. it the last time the issue came up.  Maybe it was just that we were
  823. missing some routines that we only had vax sources for, or something
  824. like that...  perhaps adding timed could become a spring cleaning
  825. item?  I agree with you, we really can and should synchronize more
  826. closely.  
  827.  
  828.  
  829.  
  830.  
  831. 855.
  832. Date: Mon, 22 Jan 90 10:28:20 PST
  833. From: Fred Douglis <douglis>
  834. Subject: Re: xbiff dies on ds3100 
  835.  
  836. which version of the X server are you running?  I found that was true
  837. with the original servers but not X?fb.new.  It's not xbiff's fault,
  838. it's the server's.
  839.  
  840.  
  841.  
  842. 856.
  843. Date: Wed, 24 Jan 90 10:50:24 PST
  844. From: ouster (John Ousterhout)
  845. Subject: Thank goodness for rcsid's
  846.  
  847. If I've ever said anything nasty about rcsid lines in the past, I
  848. take it back.  To track down the ipServer problem, I ran strings
  849. on good and bad binaries to extract all the rcsid strings.  Then
  850. I methodically started restoring versions back to what they were
  851. in the last known-good binary.  I noticed that the file
  852. Net_InetHdrChecksum.c (in the "net" library) had been modified by jhh
  853. to "Allow buffers to be odd-aligned".  When I backed out this file to
  854. its previous version, suddenly the ipServer started working perfectly.
  855. I have to head to USENIX so I haven't figured out WHY the changes broke
  856. it (John, if you get a chance you might take a look).  In the meantime,
  857. I'm going to leave installed what I think is an OK ipServer.  This is
  858. only for Sun-3's.  If it turns out to be buggy, you can overwrite the
  859. installed version with "ipServer.ok" from the ipServer source directory.
  860.  
  861. Without rcsid's I don't think I would ever have thought to check in
  862. the net library.  I wonder if perhaps the versions for ds3100 and
  863. sun4 have always been compiled with the new version of Net_InetHdrChecksum
  864. (perhaps they have to be?) and that's why they've never worked?
  865.  
  866.  
  867.  
  868.  
  869. 857.
  870. Date: Tue, 23 Jan 90 11:22:12 PST
  871. From: root (The Sprite God)
  872. Subject: locked mail spool file
  873.  
  874. Somehow Ann Chervenak's mail spool file got locked up for
  875. a few days.  This was an flock() advisory lock, and I was
  876. able to run an 'unlock' program (~brent/tmp/unlock.c) to
  877. clear the lock.  However, this implies that lock recovery
  878. is somehow broken.  "I'm sure I tested this", but cleary
  879. there is some path which can leave a file locked.  Suposedly
  880. locks are released if the client that holds them goes down.
  881. I just rechecked the code and it seems ok.  Someone should
  882. spend some time pounding on this to see if there isn't
  883. a repeatable bug that we can fix.
  884.  
  885.  
  886.  
  887. 858.
  888. Date: Tue, 23 Jan 90 11:37:20 PST
  889. From: Fred Douglis <douglis>
  890. Subject: Re: mail snafu 
  891.  
  892. Thanks for the info.  [Bob and Ann can probably stop reading right
  893. Here. :) ] Actually, I think the problem is due to a process on Ann's
  894. machine that is in the debugger.  If her mail process went into the
  895. debugger with the lock held and was never killed, that could cause
  896. problems.  This suggests that we need to either
  897.  
  898.     (1) get rid of "debuggable" processes entirely (back to core
  899.         files),
  900.  
  901.     (2) steal back locks from processes when they enter the
  902.         debugger,
  903.  
  904.     (3) make programs like mail more robust so they catch the
  905.         debug signal and exit, which will work for mail but break
  906.         the next time a similar problem occurs, or
  907.  
  908.     (4) make programs like sendmail more robust so they won't wait
  909.         forever for a file to be unlocked.
  910.  
  911.  
  912.  
  913.  
  914. 859.
  915. Date: Tue, 23 Jan 90 11:40:53 PST
  916. From: gibson (Garth Gibson)
  917. Subject: crashed machines
  918.  
  919. Peter has a simulation program that crashes 3100s from time to
  920. time; that is, we think he does.  When the machine has crashed
  921. it is left in the blacked out state with the only record of the
  922. problem hidden under the blackout.  It may be the floating point
  923. exception in the kernel problem.
  924.  
  925. The bugs is the lack of record of syslog or screen messages.
  926.  
  927.  
  928.  
  929. 860.
  930. Date: Tue, 23 Jan 90 13:56:06 PST
  931. From: ouster (John Ousterhout)
  932. Subject: Bad ipServer
  933.  
  934. I noticed today that I couldn't ftp large files from Sprite to DEC,
  935. and that I also cannot even rcp large files from Sprite to Rosemary.
  936. I also noticed that a new ipServer was installed in the last month,
  937. and that the previous installation before that was last August.  I
  938. backed out the ipServer to the version of last August and both the
  939. ftp and the rcp worked fine.  I'll try to track down which of the
  940. zillions of changes since last August is responsible for the problem,
  941. but in the meantime I've backed out the ipServers for ds3100, sun3,
  942. and sun4.  Perhaps this will get rid of the problems people have had
  943. copying to and from Sprite?
  944.  
  945.  
  946.  
  947.  
  948. 861.
  949. Date: Tue, 23 Jan 90 15:30:06 PST
  950. From: culler (David Culler)
  951. Subject: Emacs, X and other evils
  952.  
  953. I've been trying to use Sun-3s in the cory Bard cluster and have run
  954. into a variety of problems.
  955.  
  956. If I try to run EMACS from a tx window a lot of things are screwed up.  I
  957. have set the termcap using the control memu.  Emacs does come up, but a
  958. lot of the key strokes do not work, such ctrl-a.  Display is messed up too.
  959.  
  960. "Don't do it!" you exclaim.  I agree, so I set the display variable.
  961. Well that requires X access permission on this end and xhost does not
  962. work.
  963.  
  964. Any other suggestions.  I'd fire up an xterm from this end, but that doesn't
  965. work.
  966.  
  967.  
  968.  
  969.  
  970. 862.
  971. Date: Tue, 23 Jan 90 15:35:50 PST
  972. From: tve (Thorsten von Eicken)
  973. Subject: Re: Emacs, X and other evils
  974.  
  975. If you want to go for broke: rlogin to rosemary (or other favorite unix box),
  976. start an xterm -display cardamom and then rlogin to bard in that. (Oh, it
  977. works with rosemary because it's in /etc/hosts.equiv).
  978.  
  979. Real solutions:
  980. 1) bring X11R4 up on the ds3100 (hahaha)
  981. 2) add bard to /etc/hosts.equiv (why not? security?)
  982. 3) port xterm to sprite (hehe)
  983. 4) marry tx & emacs
  984. 5) run the old X server which accepts xhost
  985.    (try "xinit -- /ultrix/cmds.ds310/Xmfb")
  986.  
  987. NB: reminder: xhost doesn't work because the X server on the ds3100 dies if
  988. it's run. The problem is in the server (probably the authorization stuff is
  989. different in sprite than in ultrix).
  990.  
  991.  
  992.  
  993. 863.
  994. Date: Tue, 23 Jan 90 15:38:05 PST
  995. From: tve (Thorsten von Eicken)
  996. Subject: new error message in syslog on sun4
  997.  
  998. FPU exception from process without MACH_FPU_ACTIVE, fsr = 0x68000
  999. FPU exception from process without MACH_FPU_ACTIVE, fsr = 0x68020
  1000.  
  1001. hey, never seen that before. Any takers? Dunno what process, dunno what
  1002. was running...
  1003.  
  1004.  
  1005.  
  1006. 864.
  1007. Date: Tue, 23 Jan 90 22:18:16 PST
  1008. From: douglis@rosemary.Berkeley.EDU (Fred Douglis)
  1009. Subject: xkill on ds3100 Xmfb.new hangs server
  1010.  
  1011. run locally on my ds3100, was a no-op.  run from rosemary, i got
  1012. the xkill cursor and then my entire window system froze up as if
  1013. it were waiting for a keypress but not getting one. killing the
  1014. xkill process didn't help and i had to restart my window system.
  1015.  
  1016.  
  1017.  
  1018.  
  1019. 865.
  1020. Date: Wed, 24 Jan 90 11:23:09 PST
  1021. From: brent (Brent Welch)
  1022. Subject: Fs_Select and RPC_TIMEOUT
  1023.  
  1024. I was looking at the fs code to see what happens when you select
  1025. on a remote device and its I/O server is down.
  1026. Currently, RPC_TIMEOUT will be returned and the corresponding mask bit won't
  1027. be cleared.  This seems wrong.  Either the mask bits should be cleared
  1028. (I guess this won't matter), or the RPC_TIMEOUT should be hidden.
  1029. I think that perhaps the RPC_TIMEOUT should be hidden.  This will
  1030. cause the process to wait in Fs_Select until its timeout period
  1031. expires, or until another stream becomes ready, or until after
  1032. the recovery protocol completes.  In the current implementation
  1033. the RPC_TIMEOUT return from Fs_Select will give the application
  1034. no help in determining what stream failed.
  1035. Any strong opinions?
  1036.  
  1037.  
  1038.  
  1039.  
  1040. 866.
  1041. Date: Wed, 24 Jan 90 14:11:11 PST
  1042. From: culler (David Culler)
  1043. Subject: Objectable Ultrix Objects
  1044.  
  1045. Any thoughts on this one.  I have brought over an Ultrix Ds3100 binary
  1046. for allegro common-lisp.  When I try to run it, it acts like it isn't
  1047. an executable file, but FILE thinks it is.  Here's dribble:
  1048.  
  1049. [cardamom]/users/culler/cl/bin (7)% cl
  1050. cl: syntax error at line 2: `(' unexpected
  1051. [cardamom]/users/culler/cl/bin (8)% file cl
  1052. cl:    mipsel 407 executable not stripped - version 1.31
  1053. [cardamom]/users/culler/cl/bin (9)% 
  1054.  
  1055.  
  1056.  
  1057. 867.
  1058. Date: Fri, 26 Jan 90 09:04:33 PST
  1059. From: ouster (John Ousterhout)
  1060. Subject: Re: Fs_Select and RPC_TIMEOUT
  1061.  
  1062. You asked what to do when someone selects on a remote device and its
  1063. I/O server is down.  To resolve this, I'd suggest mimicking what happens
  1064. in UNIX when you select on a network connection that has been closed
  1065. from the other end (or try selecting on a UNIX tape drive that is
  1066. off-line).  I suspect that either the "exception" condition is set, or
  1067. else the device is considered to be both readable and writable and then
  1068. when you try to read or write it an error gets returned.
  1069.  
  1070. Unless UNIX is totally brain-damaged, I think the most important thing
  1071. is to do what it does.
  1072.  
  1073.  
  1074.  
  1075. 868.
  1076. Date: Fri, 26 Jan 90 09:12:51 PST
  1077. From: sullivan (Mark Sullivan)
  1078. Subject: rcp error
  1079.  
  1080. I was rcp'ing my .login from postgres to babylon.  From
  1081. postgres "rcp .login babylon:.login" worked fine.  From
  1082. Babylon, "rcp postgres:.login .login" tells me:
  1083.  
  1084. rcp: protocol screwup: mtime.sec not delimited
  1085.  
  1086.  
  1087.  
  1088.  
  1089. 869.
  1090. Date: Mon, 29 Jan 90 08:21:48 PST
  1091. From: rab (Robert A. Bruce)
  1092. Subject: mach header files
  1093.  
  1094. The header files mach/*.md/compatSig.h and mach/*.md/compatInt.h are
  1095. symbolic pointers to /sprite/src/lib/c/unixSyscall/compat???.h.  I don't
  1096. think this is a good thing.  If these files are used by external routines,
  1097. then they should be installed in the standard include directories.
  1098.  
  1099.  
  1100.  
  1101.  
  1102. 870.
  1103. Date: Mon, 29 Jan 90 10:47:25 PST
  1104. From: Fred Douglis <douglis>
  1105. Subject: /sprite/admin/hosts
  1106.  
  1107. is a handy file but is terribly out of date (last updated 12/15).  the
  1108. line in howto/addNewHost mentions this file, but i gather that the new
  1109. script doesn't do anything about updating it.  can the recent
  1110. additions be added to this file?  i use it sometimes when rup
  1111. indicates that a machine is down and i'm wondering if it was a
  1112. temporary machine or is something potentially worth debugging.
  1113.  
  1114.  
  1115.  
  1116. Date: Mon, 29 Jan 90 11:42:56 PST
  1117. From: tve (Thorsten von Eicken)
  1118. Subject: more spring cleanup
  1119.  
  1120. 1) How 'bout making mx/tx ICCCM conformant? That's the standard which is
  1121. supposed to allow all X clients & window managers to talk/snarf/paste
  1122. among each other.
  1123.  
  1124. 2) How 'bout gettying serious about access modes and groups?
  1125.  
  1126. 3) While you're at hacking tx/mx, how 'bout allowing people to have the
  1127. scrollbar on the *left* of the window?
  1128.  
  1129.  
  1130.  
  1131.  
  1132. 872.
  1133. Date: Mon, 29 Jan 90 15:01:53 PST
  1134. From: Fred Douglis <douglis>
  1135. Subject: select broken?
  1136.  
  1137. i am running tx on a ds3100 and selected some text.  "^v" worked fine,
  1138. but "select" produced no output.  i knew there was a problem using
  1139. tx/select between hosts of different byte orders but thought that on a
  1140. single host it should work fine.  no such luck.
  1141.  
  1142.  
  1143.  
  1144.  
  1145. 873.
  1146. Date: Tue, 30 Jan 90 11:51:16 PST
  1147. From: douglis (Fred Douglis)
  1148. Subject: sun4 cc bug
  1149.  
  1150. not only did i get
  1151.  
  1152. /tmp/cc931124.s:1574:End-of-File not at end of a line
  1153.  
  1154. but i got it in an infinite loop.  is this a known bug?
  1155.  
  1156.  
  1157.  
  1158. 874.
  1159. Date: Tue, 30 Jan 90 13:30:21 PST
  1160. From: shirriff (Ken Shirriff)
  1161. Subject: pmake bug, kernel warnings
  1162.  
  1163. Pmake on the ds3100 gave me several "***Error code 1" messages during
  1164. kernel module compiles for no apparent reason.  I recompiled the
  1165. modules without problem.
  1166.  
  1167. The following warning messages arose during the compiles:
  1168. sun4c.md/uword.c: In function read_iureg:
  1169. sun4c.md/uword.c:80: warning: assignment between incompatible pointer types
  1170. sun4c.md/uword.c:84: warning: assignment between incompatible pointer types
  1171. sun4c.md/vmSun.c:2473: warning: `VmMachFlushWholeCache' was previously implicitly declared to return `int'
  1172. sun4c.md/devVidSun4.s:23: warning: SUCCESS redefined
  1173.  
  1174. sysTestCall.c: In function Test_PrintOut:
  1175. sysTestCall.c:32: warning: structure defined inside parms
  1176.  
  1177. sun4.md/devJaguarHBA.c:1406: warning: assignment of pointer from integer lacks a cast
  1178.  
  1179.  
  1180.  
  1181. 875.
  1182. Date: Tue, 30 Jan 90 15:59:06 PST
  1183. From: tve (Thorsten von Eicken)
  1184. Subject: Re: pmake bug, kernel warnings 
  1185.  
  1186. Looks a lot like the "Error code 6" problems I've had a few weeks ago.
  1187. The only fix I came
  1188. across was to use pmake -k (everything was non-deterministic and in all
  1189. cases the programs
  1190. ran just fine), (I wasn't doing compilations).
  1191.  
  1192.  
  1193.  
  1194. 876.
  1195. Date: Tue, 30 Jan 90 16:00:19 PST
  1196. From: tve (Thorsten von Eicken)
  1197. Subject: Re: sun4 cc bug 
  1198.  
  1199. Yes, known bug: I already sent in 2 "bug reports". I get the same
  1200. symptoms. Compile on
  1201. a sun3 meanwhile (if there still is one on sprite)...
  1202.  
  1203.  
  1204.  
  1205. 877.
  1206. Date: Tue, 30 Jan 90 17:22:10 PST
  1207. From: shirriff (Ken Shirriff)
  1208. Subject: sun4c compiler problem
  1209.  
  1210. Compiling kernel/libc/fmt.c for the sun4 on the sun4c gives a bunch of
  1211. parse errors.  It works if I compile on a sun3.
  1212.  
  1213.  
  1214.  
  1215. 878.
  1216. Date: Tue, 30 Jan 90 22:08:07 PST
  1217. From: Fred Douglis <douglis>
  1218. Subject: out of processes
  1219.  
  1220. mary's sun4c X server looped and caused her machine to fill up with
  1221. xgone processes due to a script that runs periodically.  when the
  1222. machine gets into the mode of "no more processes" the feces hit the
  1223. fan.  what would people think of a soft limit on the number of
  1224. processes that can be created by users other than root, to allow root
  1225. the ability to still create processes even if a user creates far too
  1226. many?  this would be analogous to the BSD 10% hidden disk space that
  1227. only root can write to. 
  1228.  
  1229.  
  1230.  
  1231. 879.
  1232. Date: Wed, 31 Jan 90 09:11:05 PST
  1233. From: brent (Brent Welch)
  1234. Subject: stream recovery bug found
  1235.  
  1236. I found a bug in the recovery code for streams.
  1237. The server doesn't check that a client's stream
  1238. hooks up to the same I/O handle as the server's.
  1239. However, it does make this consistency check during
  1240. I/O operations.  Paprika and Kvetching were in
  1241. recovery loops with Mint because of this.  They'd
  1242. get a FS_STALE_HANDLE from Mint on a Fs_PageRead,
  1243. and then go through recovery ok.  The bug meant that
  1244. the erroneous client stream->ioHandle setup wasn't
  1245. caught until the next I/O attempt.  The reason that
  1246. the server's stream doesn't hook to the same I/O handle
  1247. as the client's is that there was a long network
  1248. partition (hours long) and Mint reused a streamID.
  1249. Ideally this wouldn't happen, but it does, and the
  1250. state recovery code should guard against it.
  1251. This bug has been around forever.
  1252.     brent
  1253. ps.  Anise did not go through recovery after the partition.
  1254. However, I was able to rlogin into it from Allspice, and
  1255. this triggered recovery with all the servers.  So, there
  1256. is still a bug left.
  1257.  
  1258.  
  1259. 880.
  1260. Date: Wed, 31 Jan 90 09:57:03 PST
  1261. From: pmchen (Peter M. Chen)
  1262. Subject: mysterious crash
  1263.  
  1264. I've been getting consistent crashes from a simulation program.  The crashes
  1265. are pretty intermittent, but when running thousands of them (one after
  1266. another), they crash the machine (ds3100) once every thousand or so (this
  1267. takes many hours, sometimes 10-20 hours).
  1268.  
  1269. The crashes seem to wipe out the screen, when it's running X, that is.  
  1270. Once I ran it on a raw console to see what the error messages were and it
  1271. seemed to have floating point implications.
  1272.  
  1273. The crashes have occurred on the "new" kernel (before the latest install), and
  1274. also on the "ken" kernel (WITH the floating point fix).  I'm now running it
  1275. on apathy (without a window system, so we can see the error messages) using the
  1276. new (after the install) kernel.
  1277.  
  1278.  
  1279. 881.
  1280. Date: Wed, 31 Jan 90 10:41:24 PST
  1281. From: Fred Douglis <douglis>
  1282. Subject: strange interaction between tx, emacs, and tcsh
  1283.  
  1284. if i start tx from my x startup script, it creates windows with tcsh
  1285. shells in them, and everything works.  if i start tx from tx, it works
  1286. okay too.  if i start tx from an emacs subshell, my tx starts up in a
  1287. funny mode where it doesn't echo characters.  stty reset fixes that
  1288. but also leaves tcsh out of the loop since it is no longer in raw
  1289. mode.  starting "tx < /dev/null" didn't help.  ideas?
  1290.  
  1291.  
  1292.  
  1293.  
  1294. 882.
  1295. Date: Wed, 31 Jan 90 14:23:35 PST
  1296. From: pmchen (Peter M. Chen)
  1297. Subject: mysterious crash
  1298.  
  1299. I crashed apathy, which was running the new "new" kernel.  The screen
  1300. blanked again, and it WASN'T running X.  It crashed when running a csh
  1301. script which invoked a simulator many times in succession (different
  1302. parameters).  Because the screen blanked, I didn't see the error log.
  1303.  
  1304. The script is in ~pmchen/striping/simul/ex/xxdisk.  The simulator is in
  1305. ~pmchen/striping/simul.
  1306.  
  1307.  
  1308.  
  1309.  
  1310. 883.
  1311. Date: Wed, 31 Jan 90 16:01:07 PST
  1312. From: gibson@rosemary.Berkeley.EDU (Garth Gibson)
  1313. Subject: Pete's mysterious crash on apathy
  1314.  
  1315. Pete asked me to describe what I saw during the crash.
  1316.  
  1317. Out of the corner of my eye, while working on paper, I noticed the
  1318. screen going crazy.  The pixels were changing rapidly; there appeared
  1319. to be a diagonal pattern, but it was more likely a rapidly stirred
  1320. soup.  This lasted a fraction of a second and then the screen went
  1321. blank.  As Peter was "in charge" of this experiment, I left everything
  1322. alone (and worked on basil).
  1323.  
  1324.  
  1325.  
  1326.  
  1327. 884.
  1328. Date: Wed, 31 Jan 90 17:09:51 PST
  1329. From: mgbaker (Mary Gray Baker)
  1330. Subject: rsh rosemary
  1331.  
  1332. An rsh to rosemary from treason gives the response
  1333. ^ATry again.
  1334.  
  1335.  
  1336.  
  1337.  
  1338. 885.
  1339. Date: Wed, 31 Jan 90 21:14:26 PST
  1340. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  1341. Subject: bootp man page
  1342.  
  1343. Bootp doesn't have a man page.
  1344.  
  1345.  
  1346.  
  1347.  
  1348. 886.
  1349. Date: Thu, 1 Feb 90 11:59:02 PST
  1350. From: pmchen (Peter M. Chen)
  1351. Subject: MAIL file corrupted
  1352.  
  1353. I lost the tail end of /sprite/spool/mail/pmchen.  It got overwritten
  1354. by the next mail.  This is bad.
  1355.  
  1356.  
  1357.  
  1358. 887.
  1359. Date: Thu, 1 Feb 90 14:20:38 PST
  1360. From: tve (Thorsten von Eicken)
  1361. Subject: Do processes *have* to go into the DEBUG state?
  1362.  
  1363. In UNIX/csh one can say "limit coredumpsize=0" and processes which fault just
  1364. die without producing a core dump.
  1365. It would be nice if sprite had a similar mechanism! Would it be easy to kill
  1366. the prrocess (instead of having it hang in DEBUG) if it's environment
  1367. contains a variable of name "NODEBUG"? Or any equivalent mechanism...
  1368.  
  1369.  
  1370.  
  1371. 888.
  1372. Date: Thu, 1 Feb 90 14:33:23 PST
  1373. From: tve (Thorsten von Eicken)
  1374. Subject: no more processes
  1375.  
  1376. I had X up, and was doing a pmake, all on crackle (sun4c with 1.055).
  1377. The I type an innocuous command in a tx window, and got "no more processes"
  1378. error message (in tx, NOT in the syslog). Then X died away (nicely, i.e.
  1379. closing down all connections) and the syslog on the console reported a
  1380. MachBusError (or whatever..). Finally I got logged off (normal thing after
  1381. X dies). I logged back on and I saw that a cc1.sparc was in DEBUG.
  1382.  
  1383. I got the "no more processes" message once before: yesterday evening (running
  1384. the new 1.055 kernel too), but the consequences were less dramatic. I tried
  1385. ps, but same message. I killed a few tx's and ps -a didn't show any unusual
  1386. processes, and not "too many" in any case (I might have been too slow, and
  1387. should have typed F1-p anyway).
  1388.  
  1389.  
  1390.  
  1391. 889.
  1392. Date: Thu, 01 Feb 90 14:36:41 PST
  1393. From: tve (Thorsten von Eicken)
  1394. Subject: Re: Do processes *have* to go into the DEBUG state? 
  1395.  
  1396. Please don't get rid of the concept: nothing more painful than a 20Meg process which
  1397. core dumps. *You* might not have such processes (compilers don't get
  1398. that big, do they?)
  1399. but people doing VLSI crap get much larger processes!
  1400.  
  1401.  
  1402.  
  1403.  
  1404. 890.
  1405. Date: Thu, 1 Feb 90 14:57:24 PST
  1406. From: tve (Thorsten von Eicken)
  1407. Subject: ouch on sun4
  1408.  
  1409. Fs_PageCopy: Copy failed <40008>
  1410. Couldn't fork!
  1411. errno = 22
  1412. exiting.
  1413.  
  1414. This appeared on my syslog and my xmh went away. Any clues?
  1415.  
  1416.  
  1417.  
  1418. 891.
  1419. Date: Thu, 1 Feb 90 16:28:33 PST
  1420. From: tve (Thorsten von Eicken)
  1421. Subject: details on sun4 cc going into debugger
  1422.  
  1423. OK, I'm running on a sun4c, kernel 1.055, I'm using
  1424. /sprite/src/cmds/cc/sun4.md/cc because the old version always dies on the
  1425. imfamous "End-of-File not at end of a line" bug, and I reported this
  1426. bug before but never really got any answer. The very first reference I could
  1427. find dates back to Dec 13 by Mary (~sprite/Log/log/01017).
  1428.  
  1429. Is the bug too difficult to fix? Or can't you reproduce it?
  1430.  
  1431. Ok, here some pieces of info on *one* instance of the problem, I can give you
  1432. as many instances as you like...
  1433.  
  1434. SYSLOG:
  1435. MachPageFault: Bus error in user proc 63754, PC = 39e50, addr = 4f2050 BR Reg 80
  1436.  
  1437. PS:
  1438. [crackle sun4.md] ps -w 160 -d
  1439. PID   STATE   TIME COMMAND
  1440. 63754 DEBUG   0:06 /sprite/lib/gcc/sun4.md/cc1.sparc /tmp/cc538448.cpp -quiet -dumpbase wireratio.c -msun4 -fwritable-strings -g -O -o /tmp/cc538448.s 
  1441. [crackle sun4.md] ps -dM
  1442. PID   STATE   FLAGS    EVENT RNODE       RPID COMMAND
  1443. 63754 DEBUG    4002 ffffffff                  /sprite/lib/gcc/sun4.md/cc1.spa...
  1444. [crackle sun4.md] sysstat
  1445. crackle              SPRITE VERSION 1.055 (sun4c) (31 Jan 90 17:15:11)
  1446. [I.e. it died on MY machine which runs 1.055]
  1447.  
  1448. PMAKE:
  1449. --- sun4.md/wireratio.o ---
  1450. rm -f sun4.md/wireratio.o
  1451. cc  "-DCADROOT=\"/users/octtools\"" -fwritable-strings "-DCUR_DATE=\"`date | awk '{print %2, %3, %6}'`\"" "-DCUR_TIME=\"`date | awk '{print %4}'`\"" -g -O -msun4 -Dsprite -Dsun4  -I. -Isun4.md -I/users/octtools/lib/include -c wireratio.c -o sun4.md/wireratio.o
  1452.  
  1453. GDB:
  1454. [crackle sun4.md] gdb cc1.sparc
  1455. Reading symbol data from /sprite/lib/gcc/sun4.md/cc1.sparc...done.
  1456. (gdb) attach 0x63754
  1457. Attaching program: /sprite/lib/gcc/sun4.md/cc1.sparc pid 407380
  1458. Reading in symbols for final.c...done.
  1459. 0x39e50 in output_address (x=(rtx) 0x10f8c8) (final.c line 1528)
  1460. final.c: no such file or directory.
  1461. (gdb) where
  1462. #0  0x39e50 in output_address (x=(rtx) 0x10f8c8) (final.c line 1528)
  1463. #1  0x39aac in output_operand (x=(rtx) 0x10f8d8, code=0) (final.c line 1516)
  1464. #2  0x39884 in output_asm_insn (template=(char *) 0x0, operands=(rtx *) 0x1dffdf18) (final.c line 1463)
  1465. #3  0x454ac in output_fp_move_double (...) (...)
  1466. #4  0x48d94 in output_54 (...) (...)
  1467. #5  0x38cb0 in final_scan_insn (insn=(rtx) 0x10c5b0, file=(struct _file *) 0xc8708, write_symbols=311236, optimize=1, prescan=0, nopeepholes=54) (final.c line 1004)
  1468. #6  0x37e40 in final (first=(rtx) 0xcf260, file=(struct _file *) 0xcc070, write_symbols=DBX_DEBUG, optimize=1, prescan=0) (final.c line 531)
  1469. #7  0x94b2c in rest_of_compilation (...) (...)
  1470. #8  0x9394 in finish_function (...) (...)
  1471. #9  0xd168 in yyparse (...) (...)
  1472. #10 0x937a0 in compile_file (...) (...)
  1473. #11 0x95710 in main (...) (...)
  1474. (gdb) 
  1475.  
  1476.  
  1477.  
  1478.  
  1479. 892.
  1480. Date: Thu, 1 Feb 90 16:29:13 PST
  1481. From: brent (Brent Welch)
  1482. Subject: Allspice crash
  1483.  
  1484. Allspice crashed mysteriously.  After getting RPC timeout messages
  1485. I went in to check it out.  There were a few messages on the
  1486. console about hosts going through recovery.  I hit return on
  1487. the console and immediately it went into the debugger with
  1488. an "unaligned address in kernel".  Mendel ran the debugger
  1489. and found that a call to Fsutil_WaitListInsert had a bogus pointer.
  1490. The only other clue was that allspice had previously filled up
  1491. its disk, but then I reclaimed the space by rebooting fenugreek
  1492. so that it deleted its swap files.  Also, Allspice had just
  1493. created all the RPC server processes it was allowed to.  So
  1494. something funny was going on, but we don't know what.
  1495.  
  1496.  
  1497.  
  1498.  
  1499. 893.
  1500. Date: Thu, 1 Feb 90 16:58:11 PST
  1501. From: mgbaker (Mary Gray Baker)
  1502. Subject: ds3100 TLB fault or such?
  1503.  
  1504. This is a rather vague bug report.  After allspice recovered, Bob Miller's
  1505. machine didn't quite come back.  The mail process in one window was hung.
  1506. Pinging his machine from allspice with "rpccmd -ping" didn't do anything.
  1507. There were a lot of Skipping Stream messages in the syslog, and also a
  1508. TLB fault message.  I didn't know what to tell him about why this happened.
  1509. Maybe somebody can tell me?
  1510.  
  1511.  
  1512.  
  1513.  
  1514. 894.
  1515. Date: Thu, 1 Feb 90 17:40:23 PST
  1516. From: pmchen (Peter M. Chen)
  1517. Subject: cc bug on sun4c
  1518.  
  1519. I've heard about this bug for a while Thorsten's mail.  It's the
  1520. "End-of-File not at end of a line" bug when pmaking on a sun4c for a
  1521. sun4.
  1522.  
  1523. To duplicate, pmake in ~pmchen/striping/simul. (pmake clean first).
  1524.  
  1525. When I typed in the offending cc line
  1526.  
  1527. cc  -g -O -msun4 -Dsprite -Dsun4 -I/users/pmchen/lib/include -I. -Isun4.md -c simul.c -o sun4.md/simul.o
  1528.  
  1529. I got 
  1530.  
  1531. MachPageFault: Bus error in user proc 21d34, PC = 39e50, addr = 49c1b0 BR Reg 80
  1532.  
  1533. consistently.  Compiling on a sun3 for a sun4 works fine.
  1534.  
  1535.  
  1536.  
  1537.  
  1538. 895.
  1539. Date: Thu, 1 Feb 90 17:58:57 PST
  1540. From: tve (Thorsten von Eicken)
  1541. Subject: Re: details on sun4 cc going into debugger
  1542.  
  1543. On a ds3100, using /sprite/src/cmds/ds3100.md/gcc, cc1.sparc goes into the
  1544. debugger on the same file. And I just checked: on a sun3 it also goes into
  1545. the debugger, as a bonus, it spits out lines like this:
  1546. T(875) 0 0x00000000  0x00000000 0x00000000  0x00000000 
  1547. T(1054) 0 0x00000000  0x00000000 0x00000000  0x00000000 
  1548. T(2287) 0 0x00000000  0x00000000 0x00000000  0x00000000 
  1549. T(2308) 1 0x00000000  0x00000000 0x00000000  0x00000000 
  1550. T(1030) 2 0x00000000  0x00000000 0x0008bc72  0x0008bc9e 
  1551.  
  1552. In other words, the only way I can compile, is to use the old (i.e. installed)
  1553. compiler on a sun3!!!
  1554.  
  1555.  
  1556.  
  1557. 896.
  1558. Date: Thu, 1 Feb 90 18:37:36 PST
  1559. From: brent (Brent Welch)
  1560. Subject: Oregano crash, cache deadlock
  1561.  
  1562. The nfsmount process that hung up on Oregano was stuck
  1563. trying to remove a swap file.  This is getting to be
  1564. a familiar cause of death for the servers.  Here's a stack trace:
  1565. #0  0xe004136 in Mach_ContextSwitch ()
  1566. #1  0xfeedbabe in ?? ()
  1567. #2  0xe060c42 in SyncEventWaitInt (...) (...)
  1568. #3  0xe060358 in Sync_SlowWait (...) (...)
  1569. #4  0xe021e28 in GetUnlockedBlock (...) (...)
  1570. #5  0xe02092c in CacheFileInvalidate (...) (...)
  1571. #6  0xe02050c in Fscache_UnlockBlock (...) (...)
  1572. #7  0xe01f29c in FreeIndirectBlock (...) (...)
  1573. #8  0xe01efd6 in Fsdm_EndIndex (...) (...)
  1574. #9  0xe01b558 in Fsdm_FileDescTrunc (...) (...)
  1575. #10 0xe028500 in Fsio_FileTrunc (...) (...)
  1576. #11 0xe02d556 in Fslcl_DeleteFileDesc (...) (...)
  1577. #12 0xe027568 in Fsio_FileCloseInt (...) (...)
  1578. #13 0xe02d3da in DeleteFileName (...) (...)
  1579. #14 0xe02c392 in FslclLookup (...) (...)
  1580. #15 0xe02ba14 in FslclRemove (...) (...)
  1581. #16 0xe032896 in Fsprefix_LookupOperation (...) (...)
  1582. #17 0xe0174cc in Fs_Remove (...) (...)
  1583. #18 0xe072dd8 in VmSwapFileRemove (...) (...)
  1584. #19 0xe06ae7e in DeleteSeg (...) (...)
  1585. #20 0xe06add2 in Vm_SegmentDelete (...) (...)
  1586. #21 0xe04cbc6 in ProcExitProcess (...) (...)
  1587. #22 0xe04c702 in Proc_ExitInt (...) (...)
  1588. ---Type <return> to continue---
  1589. #23 0xe05fdf6 in Sig_Handle (...) (...)
  1590. #24 0xe004ff0 in MachUserReturn (...) (...)
  1591. #25 0xe004f6a in MachTrap (...) (...)
  1592. #26 0xe0063c0 in MachBusError ()
  1593. (gdb) fram 4
  1594. Reading in symbols for fsBlockCache.c...done.
  1595. #4  0xe021e28 in GetUnlockedBlock (blockHashKeyPtr=(BlockHashKey *) 0xe9b7814, blockNum=-2) (fsBlockCache.c line 3042)
  1596. Source file is more recent than executable.
  1597. 3042        (void) Sync_Wait(&blockPtr->ioDone, FALSE);
  1598. (gdb) p *blockPtr
  1599. ERROR: invalid read address 0x0
  1600.  
  1601. (gdb) p blockPtr
  1602. ERROR: invalid read address 0x0
  1603.  
  1604. As you can see, I couldn't look around very well to see exactly
  1605. what was wrong.  My rememberance from past experiences is that
  1606. somehow a cache block gets a zillion references to it, and
  1607. GetUnlockedBlock waits (forever) for these references to go away.
  1608.  
  1609. Glancing at the end of the stack trace again:
  1610. #3  0xe060358 in Sync_SlowWait (...) (...)
  1611. #4  0xe021e28 in GetUnlockedBlock (...) (...)
  1612. #5  0xe02092c in CacheFileInvalidate (...) (...)
  1613. #6  0xe02050c in Fscache_UnlockBlock (...) (...)
  1614. #7  0xe01f29c in FreeIndirectBlock (...) (...)
  1615. #8  0xe01efd6 in Fsdm_EndIndex (...) (...)
  1616.  
  1617. This highlights some of the over-generality of the cache implementation.
  1618. The CacheFileInvalidate is a very general routine that rehashes to
  1619. get the block, works on a range of blocks, etc.  It seems clear that
  1620. this block just needs to be marked for deletion inside Fscache_UnlockBlock
  1621. and evenntually nuked when it has no more users.  Any takers?
  1622.  
  1623.  
  1624.  
  1625. 897.
  1626. Date: Thu, 1 Feb 90 21:22:31 PST
  1627. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  1628. Subject: ds3100 TLB LD miss
  1629.  
  1630. Hijack went into the debugger on a TLB load miss in the kernel. It
  1631. was right in the middle of restoring registers after a call, and
  1632. one of the middle loads suffered the fault.  This was not on a page
  1633. boundary.  Furthermore, there is a valid tlb entry for the page.
  1634. A while ago I changed the kernel exception handler to store away
  1635. each virtual address that caused an exception so I could debug
  1636. stuff like this. Unfortunately this variable contained a different
  1637. address than the one indicated by the pc.  This different address
  1638. was in the kernel heap and was also valid.
  1639.  
  1640. This whole thing has me stumped because I can't figure out any way
  1641. for the kernel to enter the debugger on this particular exception
  1642. without entering the kernel exception handler first.
  1643.  
  1644.  
  1645.  
  1646.  
  1647. 898.
  1648. Date: Thu, 1 Feb 90 22:00:29 PST
  1649. From: shirriff (Ken Shirriff)
  1650. Subject: Mail got clobbered
  1651.  
  1652. My mail file just got clobbered.
  1653. Here's the sequence of events:
  1654. I had new mail: messages 180, 181, and 182.
  1655. I read 180 and deleted it.  I sent a reply to 181.  I deleted 182.
  1656. Then I left mail.
  1657. In my syslog I got a message from sendmail that the reply I'd tried to
  1658. send had failed.
  1659. I got a message "New mail has arrived", so I went back into mail.
  1660. Mail had restored as message 180 the message 180 that I'd deleted.  However,
  1661. the mail from the mailer-daemon about my failed reply had clobbered the
  1662. last half of message 180.  Message 181 disappeared totally.
  1663. I have a copy of my tx transcript and a copy of my mail file if
  1664. anyone has ideas on how to track this down.
  1665.  
  1666.  
  1667.  
  1668.  
  1669. 899.
  1670. Date: Thu, 01 Feb 90 22:34:49 PST
  1671. From: Fred Douglis <douglis>
  1672. Subject: Re: Mail got clobbered 
  1673.  
  1674. It sounds an awful lot like (1) flock() is broken, (2) some program isn't
  1675. behaving itself, or (3) there's some sort of cache consistency problem.  
  1676. If your example provides a repeatable test case it
  1677. should be easy enough to track and would probably be due to 1 or 2.  If
  1678. not, it'll be much harder.  I'll check it out tomorrow.
  1679.  
  1680.  
  1681.  
  1682.  
  1683. 900.
  1684. Date: Fri, 02 Feb 90 10:32:08 PST
  1685. From: Fred Douglis <douglis>
  1686. Subject: memory trashing problem on ds3100
  1687.  
  1688. twice in the past two days my machine has crashed with "Mem_Free:
  1689. storage block already free".  The first time, the kernel never fully
  1690. entered the debugger, but today it did.  The string being freed
  1691. was undamaged, which implies that only the admin block got corrupted.
  1692. I only started seeing this bug fairly recently (1.053 and 1.055 kernels).
  1693. has anyone else hit it?  anyone have suggestions for what might have
  1694. changed?  
  1695.  
  1696.  
  1697.  
  1698.  
  1699. 901.
  1700. Date: Fri, 02 Feb 90 10:59:50 PST
  1701. From: Fred Douglis <douglis>
  1702. Subject: trashed file client list when out of segments
  1703.  
  1704. i tried to start up one tx/rlogin per host.  my system wedged, with a
  1705. process in the RUNNING state and lots of other processes READY.  the
  1706. debugger showed that this process was in a LIST_FORALL in
  1707. Fsio_StreamClientClose with a garbaged client list.  It got there
  1708. because it ran out of segments and tried deleting a segment it had
  1709. just allocated.  no idea why the list was bad, but it could be related
  1710. to the memory trashing but i just reported.
  1711.  
  1712.  
  1713.  
  1714.  
  1715. 902.
  1716. Date: Sat, 3 Feb 90 14:30:46 PST
  1717. From: shirriff (Ken Shirriff)
  1718. Subject: mail problems / dec crashes (investigation)
  1719.  
  1720. I looked at the mail file truncation problem yesterday with inconclusive
  1721. results.  I had a loop: while (1)  echo test | mail shirriff  to send
  1722. me a bunch of mail messages.  Meanwhile I would enter and exit mail.
  1723. (This was on the ds3100 running the new kernel.)
  1724. This would fairly regularly mangle one of the messages.  It also fairly
  1725. regularly produced the crashes John and Fred have seen: TLB load miss
  1726. and page already free (sorry, I can't remember exactly what it was, but
  1727. it was the same one Fred saw).  Then I tried this on an old kernel to
  1728. see if the problem happened, but it wouldn't recur.  Instead mint would
  1729. get unhappy and do RPC timeouts for a minute.  I went back to the new
  1730. kernel and I still couldn't get the truncation/crashes to recur.  I am
  1731. unsure what conclusions to draw from this.  The earlier crashes were
  1732. around 2PM, while the later non-crashes were around 5PM, so perhaps
  1733. other activity on the system triggers the problem?
  1734.  
  1735.  
  1736.  
  1737.  
  1738. 903.
  1739. Date: Sat, 3 Feb 90 18:05:56 PST
  1740. From: pmchen (Peter M. Chen)
  1741. Subject: decstation crashes
  1742.  
  1743. I have a fairly repeatable crash mode on apathy (and other ds3100's).
  1744. I can consistently get a crash within 3 hours by running the same
  1745. simulation (same input parameters) for a couple hundred times.
  1746. The kernel running is "new", though I've crashed non-"new" kernels
  1747. too.
  1748.  
  1749. The program uses floating point.  This is what we've been referring
  1750. to as the "mysterious" crash.  Garth specifically reported seeing
  1751. the screen go crazy (it was not running X), then blank.
  1752.  
  1753. Since the screen goes blank, I can't read the syslog by normal
  1754. (on the screen) means.  I've tried cat-ing /dev/syslog to a file
  1755. (/tmp/apathy.syslog) and reading from another machine to make it
  1756. non-cacheable, but the syslog hasn't printed out anything unusual.
  1757.  
  1758. After a crash, the machine frequently prompts for language type upon
  1759. reboot.  This makes me suspect that the battery backed up memory might
  1760. be getting trashed.
  1761.  
  1762. The program to run is a script in ~pmchen/striping/simul/ex/debug.
  1763. The script can be run by:
  1764.  
  1765. cd ~pmchen/striping/simul
  1766. mv out/debug out/debugsave (or some other non-existent directory)
  1767. bin/go debug
  1768.  
  1769.  
  1770.  
  1771.  
  1772. 904.
  1773. Date: Sun, 4 Feb 90 11:22:22 PST
  1774. From: fwo (Fred W. Obermeier)
  1775. Subject: Makefile incompatibility
  1776.  
  1777. Hi,
  1778.  
  1779. I haven't switched over to pmake yet, but I noticed that SPRITE's Makefile
  1780. does not support "include filename" statements as BSD UNIX and SUNOS do.
  1781.  
  1782.  
  1783.  
  1784.  
  1785. 905.
  1786. Date: Sun, 4 Feb 90 13:47:43 PST
  1787. From: mgbaker (Mary Gray Baker)
  1788. Subject: molasses on oregano
  1789.  
  1790. If I do a "df" on treason, I get
  1791.  
  1792.     RpcDoCall: <domain info> RPC to oregano is hung
  1793.  
  1794. After a few minutes I gave up and typed some ^C's.  Then after about another
  1795. minute the prompt finally came back.  Opens and other rpc's are also timing
  1796. out.  A second df also hung and no amount of ^C's will kill it.  An
  1797. rpcstat -srvr on oregano shows that a server process thinks it's busy handling
  1798. a domain info rpc for treason.  But it doesn't seem to be getting anywhere.
  1799.  
  1800.  
  1801.  
  1802. 906.
  1803. Date: Mon, 5 Feb 90 17:34:20 PST
  1804. From: brent (Brent Welch)
  1805. Subject: /sprite2
  1806.  
  1807. The problem with /sprite2 is the core leak in nfsmount.
  1808. The nfsmount process for /sprite2 now has a 20Meg virtual image size.
  1809. Every access to /sprite2 causes lots of paging, and it's slow.
  1810. Supposedly there is a core-lead in the SUN RPC library that
  1811. nfsmount uses.  There may be a leak in nfsmount itself.  I don't
  1812. have the time right now to fix this.
  1813.  
  1814.  
  1815.  
  1816.  
  1817. 907.
  1818. Date: Mon, 05 Feb 90 18:28:52 PST
  1819. From: Fred Douglis <douglis>
  1820. Subject: IOC_SET_OWNER not byteswapped
  1821.  
  1822. If a process opens a pdev on another host, and they are of different
  1823. byte orders, then IOC_SET_OWNER will generate a bogus processID
  1824. because the pid won't be swapped.
  1825.  
  1826.  
  1827.  
  1828.  
  1829. 908.
  1830. Date: Mon, 05 Feb 90 19:48:50 PST
  1831. From: Fred Douglis <douglis>
  1832. Subject: Fs_Dispatch exits instead of propagating errors
  1833.  
  1834. as you may see from the following code fragment, i have a problem:
  1835.  
  1836.     numReady = select(maxPossNumStreams, tempReadMask, tempWriteMask,
  1837.         tempExceptMask, (struct timeval *) timeoutPtr);
  1838.  
  1839.     if (numReady == 0) {
  1840.     /*
  1841.      * Nothing happened on the streams but a routine in the timeout
  1842.      * queue needs to be called now.
  1843.      */
  1844.     CallTimeoutHandler();
  1845.     fsNumTimeoutEvents++;
  1846.  
  1847.     } else if (numReady < 0) {
  1848.     if (errno != EINTR) {
  1849.         fprintf(stderr, "Fs_Dispatch select error: %s\n", strerror(errno));
  1850.         exit(1);
  1851.     }
  1852.  
  1853. so, if someone gets an I/O error because they select on a pdev whose
  1854. master goes away, then Fs_Dispatch exits rather than allowing the
  1855. caller to take some other action.  (in my case, i would try to create
  1856. a new master.)  
  1857.  
  1858. what do you think is the right solution here?  will anything break if
  1859. Fs_Dispatch ignores EIO as well?  should it ignore more than that?
  1860. maybe allow the user to register a callback in case of errors, or
  1861. something?  i'm happy to implement any of the above but am wondering
  1862. about the long-range implications since i don't know all the programs
  1863. that use Fs_Dispatch.
  1864.  
  1865.  
  1866.  
  1867.  
  1868. 909.
  1869. Date: Tue, 06 Feb 90 10:41:20 PST
  1870. From: Fred Douglis <douglis>
  1871. Subject: wedged prefix there for keeps
  1872.  
  1873. I noticed that sprite2 was hanging and in fact had never been
  1874. restarted, and it had a swap image of 20MB again, so i tried to kill
  1875. it.  silly me.  it wedged again, so instead of hanging RPCs eventually
  1876. being ok, now they just hang forever.  if i go to another machine and
  1877. try "prefix -d /sprite2; nfsmount..." it lets me clear the prefix but
  1878. then imports it from oregano again rather than letting the new host
  1879. export it.  does the code to export a prefix first broadcast to see if
  1880. someone else is exporting it already?  
  1881.  
  1882.  
  1883.  
  1884.  
  1885. 910.
  1886. Date: Tue, 6 Feb 90 10:53:36 PST
  1887. From: mendel (Mendel Rosenblum)
  1888. Subject: sparcStation watchdog reset
  1889.  
  1890. That nasty dog is back on jaywalk.  It was running the new (1.055)
  1891. kernel and I was trying to print a paper on lw477.  It started with
  1892. a wild video display followed by the watchdog reset.  The watchdog was causes
  1893. by a panic() that panic'ed because the MASTER_LOCK found an negative 
  1894. interrupt count. (Bug #1 - Panic probably shouldn't call itself infinitely.)
  1895. I couldn't find the start of the stack to figure out what causes the
  1896. initial panic(). It appeared to be the stack of an RPC server. 
  1897. proc_RunningProcesses[0] was NIL so it could for been running at interrupt
  1898. level when the problem happened.  (Bug #2 - From experience with RAID, it 
  1899. seems like a panic() at interrupt level doesn't make it into the debugger
  1900. on the sun4's.)
  1901.  
  1902.  
  1903.  
  1904.  
  1905. 911.
  1906. Date: Tue, 6 Feb 90 15:08:13 PST
  1907. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  1908. Subject: separate config files for ipServer
  1909.  
  1910. There are separate copies of the ipServer configuration file in each
  1911. of the /sprite/daemons.* directories.  This file should be moved
  1912. elsewhere, or symbolic links should be made.  Better yet, move the
  1913. daemons to /sprite/daemons/cmds, and leave the configuration files
  1914. in /sprite/daemons.
  1915.  
  1916.  
  1917.  
  1918.  
  1919. 912.
  1920. Date: Tue, 6 Feb 90 21:28:00 PST
  1921. From: ouster (John Ousterhout)
  1922. Subject: Re: separate config files for ipServer
  1923.  
  1924. I think the ipServer should use the standard library facility:
  1925. there should be a directory /sprite/lib/ipServer that contains
  1926. the config file, or perhaps /sprite/daemons/lib/ipServer.
  1927. Ditto for inetd, which has its own configuration file (inetd.conf).
  1928.  
  1929.  
  1930.  
  1931.  
  1932. 913.
  1933. Date: Wed, 7 Feb 90 00:12:34 PST
  1934. From: shirriff (Ken Shirriff)
  1935. Subject: ds3100 OMAGIC files.
  1936.  
  1937. The good news is OMAGIC files will work on the ds3100 now.
  1938.  
  1939. The bad news is that ~culler/cl/bin/cl (the lisp interpreter I implemented
  1940. OMAGIC files for) prints a bunch of
  1941. "MachUNIXGetDirEntries: Bad directory format"
  1942. in the syslog and then ends with:
  1943. "The environment this lisp is running in has used
  1944. up too much stack.  It cannot be restarted"
  1945.  
  1946.  
  1947.  
  1948.  
  1949. 914.
  1950. Date: Wed, 7 Feb 90 09:51:25 PST
  1951. From: brent (Brent Welch)
  1952. Subject: Re: status of /sprite2 ?
  1953.  
  1954. The nfsmount on /sprite2 ends up with a huge virtual memory image
  1955. because of a core leak.  Even worse, killing this process causes
  1956. it to deadlock within the FS cache.  So, there are two bugs that
  1957. need to be fixed.  The reason this have just recently caused
  1958. a problem is that the "bounds" file for msgs was changed and
  1959. the result is a huge number of lookups for non-existent
  1960. messages files.  I think that each RPC leaks memory in nfsmount,
  1961. so it has been ending up with a 20Meg memory image, and it
  1962. pages on almost every RPC.
  1963.  
  1964.  
  1965.  
  1966. 915.
  1967. Date: Thu, 8 Feb 90 14:43:15 PST
  1968. From: brent (Brent Welch)
  1969. Subject: file corruption still happens
  1970.  
  1971. I deliberatly teamed up all the machine types against
  1972. the file servers today, and I observed one instance
  1973. of file corruption, ack!  It was a file in the net module,
  1974. and Allspice is running a kernel with my last fix to
  1975. the UpgradeFragment code.  The beginning part of a file
  1976. was mangled.  Oh, how exciting, the file's contents have
  1977. changed since I looked at it first.  The initial fragment
  1978. of this file is being erroneously shared with other files.
  1979. A race still lurks in the fragmenting code.
  1980.  
  1981.  
  1982.  
  1983. 916.
  1984. Date: Thu, 8 Feb 90 18:12:21 PST
  1985. From: mgbaker (Mary Gray Baker)
  1986. Subject: Jaywalk turned to molasses
  1987.  
  1988. Jaywalk turned to molasses tonight.  It was getting page faults where every
  1989. page fault caused a pmeg to be stolen.
  1990.  
  1991.  
  1992.  
  1993.  
  1994. 917.
  1995. Date: Fri, 9 Feb 90 15:48:19 PST
  1996. From: root (The Sprite God)
  1997. Subject: system wedging problems
  1998.  
  1999. sprite has been behaving badly this afternoon.  first allspice's load
  2000. hit over 20 and allspice didn't respond to anything, including keyboard
  2001. input.  i finally hit the watchdog reset button and rebooted.  about 15
  2002. minutes after it came back, its load shot up again. this time kvetching
  2003. wedged up, and when i came upstairs i couldn't login as root on mint
  2004. or allspice.  i noticed mint was complaining about consist timeouts with
  2005. kvetching so i ran l1d from ginger and that cleared things up once kvetching
  2006. was in the debugger.  (on kvetching, by the way, processes were in
  2007. the DEAD state -- surely  a bad sign).  i'll debug kvetching if i can.
  2008.  
  2009. once mint came back, allspice went into an infinite recoveryloop with
  2010. terrorism, with allspice complaining that something didn't have a handle.
  2011. i threw terrorism into the debugger as well.
  2012.  
  2013.  
  2014.  
  2015.  
  2016. 918.
  2017. Date: Fri, 09 Feb 90 17:19:17 PST
  2018. From: Fred Douglis <douglis>
  2019. Subject: /swap1: directory from hell
  2020.  
  2021. it seems that anything trying to open /swap1 or anything below it
  2022. hangs, at least in some circumstances.  that would also explain why
  2023. processes can't exit on some machines.  this hoses migration and some
  2024. other things.  with all the wedging we've had all afternoon, i hate to
  2025. debug allspice, but at the same time we should probably do it while we
  2026. can.  
  2027.  
  2028.  
  2029.  
  2030.  
  2031. 919.
  2032. Date: Fri, 9 Feb 90 17:51:01 PST
  2033. From: douglis@ginger.Berkeley.EDU (Fred Douglis)
  2034. Subject: allspice deadlock
  2035.  
  2036. allspice deadlocked on /swap1.  it ran out of rpc_servers because pride
  2037. kept broadcasting for /swap1 once it had been rebooted, and each one chewed
  2038. up a server.  (we must be able to do something about that....)
  2039.  
  2040. one process that looked suspicious was a server for piracy's remove of a 
  2041. swap file.  the backtrace looked a lot like oregano's backtrace of the
  2042. wedged nfsmount:
  2043.  
  2044. #3  0xf60385d8 in GetUnlockedBlock (...) (...)
  2045. #4  0xf6036858 in CacheFileInvalidate (...) (...)
  2046. #5  0xf6036230 in Fscache_UnlockBlock (...) (...)
  2047. #6  0xf6034964 in FreeIndirectBlock (...) (...)
  2048. #7  0xf6034550 in Fsdm_EndIndex (...) (...)
  2049. #8  0xf602f520 in Fsdm_FileDescTrunc (...) (...)
  2050. #9  0xf6040e70 in Fsio_FileTrunc (...) (...)
  2051. #10 0xf6047e7c in Fslcl_DeleteFileDesc (...) (...)
  2052. #11 0xf603f9e8 in Fsio_FileCloseInt (...) (...)
  2053. #12 0xf6047c98 in DeleteFileName (...) (...)
  2054. #13 0xf6046624 in FslclLookup (...) (...)
  2055. #14 0xf604588c in FslclRemove (...) (...)
  2056. #15 0xf60551d0 in Fsrmt_RpcRemove (...) (...)
  2057.  
  2058. the full trace, with args, is in rosemary:/tmp/sprite/allspice.log.
  2059. it indicates one other blocked process of note, by the way:
  2060.  
  2061. 3  0xf60580d4 in Fsutil_HandleFetch (fileIDPtr=(struct Fs_FileID *) 0xf8077a48) (fsHandle.c line 542)
  2062.  
  2063. #4  0xf6057a0c in Fsutil_HandleInstall (...) (fsHandle.c line 282)
  2064. #5  0xf603eeac in Fsio_LocalFileHandleInit (...) (fsFile.c line 80)
  2065. #6  0xf6046a68 in FindComponent (...) (fsLocalLookup.c line 772)
  2066. #7  0xf6046004 in FslclLookup (...) (fsLocalLookup.c line 330)
  2067. #8  0xf604545c in FslclGetAttrPath (...) (fsLocalDomain.c line 233)
  2068. #9  0xf6051484 in Fsrmt_RpcGetAttrPath (...) (...)
  2069.  
  2070. in each case they were blocked at these points.  other processes were
  2071. blocked trying to access /swap1.
  2072.  
  2073.  
  2074.  
  2075.  
  2076.  
  2077. 920.
  2078. Date: Sat, 10 Feb 90 14:22:15 PST
  2079. From: mendel (Mendel Rosenblum)
  2080. Subject: lint on the sun4
  2081.  
  2082. I installed the lint program for the sun4 and it appears to work except that
  2083. it can't read lint libraries created by the other machines. The problem is
  2084. that lint libraries are binary files with structures containing  shorts and 
  2085. ints. This means that the sun4 lint can't read libraries generated on the
  2086. ds3100 or sun3.  Unfortunately, most the the lint libraries for the sun4 
  2087. have been generated on the sun3.  This problem is compounded by the 
  2088. flaky compilers on the sun4 that make the sun3 the only stable base for 
  2089. compiling for the sun4.
  2090.  
  2091.  
  2092.  
  2093.  
  2094.  
  2095. 921.
  2096. Date: Sun, 11 Feb 90 18:22:57 PST
  2097. From: Fred Douglis <douglis>
  2098. Subject: allspice wedged again
  2099.  
  2100. with /swap1 locked.  jhh and i poked around in the debugger but didn't
  2101. find anything new. we decided to reboot with "sun4" instead of "brent"
  2102. in the hope that the bug is new.  let's see if allspice does any
  2103. better this time around. 
  2104.  
  2105. by the way, most of what it was wedged on seemed to be related to
  2106. kvetching.  allspice was running BW.234. kvetching is running 1.056.  
  2107. i am not aware of anything in particular i might be doing on kvetching
  2108. to cause this problem. at the time allspice started wedging, kvetching
  2109. froze up and i couldn't do too much, but i could see that it was
  2110. trying to do lots and lots of pageouts.
  2111.  
  2112.  
  2113.  
  2114.  
  2115. 922.
  2116. Date: Mon, 12 Feb 90 09:04:06 PST
  2117. From: brent (Brent Welch)
  2118. Subject: Re: allspice wedged again
  2119.  
  2120. I think that all the Allspice problems are related to the
  2121. cache deadlock.  This bug is the primary cause of server death.
  2122.  
  2123.  
  2124.  
  2125. 923.
  2126. Date: Mon, 12 Feb 90 17:31:27 PST
  2127. From: shirriff (Ken Shirriff)
  2128. Subject: Mail problems
  2129.  
  2130. These both seem to be problems with the new version of mail.
  2131. 1.  I can't use ^C to get out of mail.  After the first one it says
  2132. (Interrupt -- one more to kill letter)
  2133. but then any more get ignored.
  2134. 2.  Sometimes mail won't let me use ~ escapes.  I'll be typing,
  2135. I'll use ~v to get to vi, I'll leave vi, and then no more ~ escapes
  2136. will work; they just end up in my file.  I can't repeat this at will,
  2137. but it's happened twice.
  2138.  
  2139.  
  2140.  
  2141. 924.
  2142. Date: Mon, 12 Feb 90 17:51:01 PST
  2143. From: pmchen (Peter M. Chen)
  2144. Subject: mail
  2145.  
  2146. The mail program on decstations has been flaky recently.
  2147. For example, when coming out of vi mode, often the vi process hangs
  2148. and mail is unable to go on.  This happens most frequently when
  2149. I exit vi (ZZ) and typeahead a ~p.
  2150.  
  2151. I am also consistently unable to control-C out of mail (try it).  The mail
  2152. process hangs in the RWAIT state.  You can kill it manually, but not by
  2153. control-C or control-Z.
  2154.  
  2155.  
  2156.  
  2157.  
  2158. 925.
  2159. Date: Tue, 13 Feb 90 14:10:26 PST
  2160. From: brent (Brent Welch)
  2161. Subject: cache deadlock fixed
  2162.  
  2163. I found the problem with the cache code that has been plaguing
  2164. Allspice lately.  I'm off to lunch, and if it dies in the
  2165. meantime you should reboot with my sun4 kernel (BW.239).
  2166.  
  2167. (This image will be copied to rosemary:/tmp/brent/sun4.brent)
  2168.  
  2169. The bug had to do with my non-blocking cache block fetches.
  2170. I added this last fall to fix a different problem, and in
  2171. one case I wasn't backing out right.  If a file was into
  2172. doubly indirect blocks it might successfully grab one block
  2173. but then not be able to get the second.  It didn't back out
  2174. from this case right and left an extra reference to the
  2175. (all important) first level block.  The fix is in fsdm, and
  2176. I've also tidied up fscache (removed some old warnings).
  2177. I'll install these and set up a new kernel soon.  In the meantime
  2178. my sun3 and sun4 kernels have the fix in them.
  2179.  
  2180.  
  2181.  
  2182.  
  2183. 926.
  2184. Date: Tue, 13 Feb 90 14:54:32 PST
  2185. From: ouster (John Ousterhout)
  2186. Subject: Eviction problem on ds3100's?
  2187.  
  2188. I've been using migration to do some compiles at WRL today, and
  2189. I've noticed that every time I cause a process to be evicted,
  2190. pmake gets "*** Error code 1" and quits.  This has been 100%
  2191. reproducible here (i.e. 3/3 times).  Perhaps there is something
  2192. about the WRL environment that is causing this problem, but I
  2193. vaguely remember people reporting similar symptoms at Berkeley....
  2194. could this be a consistent problem that hasn't been repeatable
  2195. because eviction is infrequent?
  2196.  
  2197.  
  2198.  
  2199.  
  2200. 927.
  2201. Date: Tue, 13 Feb 90 22:05:50 PST
  2202. From: pmchen (Peter M. Chen)
  2203. Subject: mail problems
  2204.  
  2205. Mail continues to have problems on the decstations.  Once, I wasn't
  2206. able to control-Z out of mail (it hung and had to be killed manually).
  2207.  
  2208. Another time, a subprocess executing "folders" hung (the ls /users/pmchen/mail
  2209. process hung in the EXIT state).
  2210.  
  2211. Can we get back to a reasonable version (the old one was fine) until
  2212. a more mature version exists?
  2213.  
  2214. (While mailing this bug report, mail died (the vi process hung in the
  2215. EXIT state)).
  2216.  
  2217.  
  2218.  
  2219.  
  2220. 928.
  2221. Date: Tue, 13 Feb 90 22:49:44 PST
  2222. From: Fred Douglis <douglis>
  2223. Subject: Re: Eviction problem on ds3100's? 
  2224.  
  2225. i've noticed this before and had suspicions but was never able to
  2226. produce the problem as reliably as you were.  today i have been able
  2227. to reproduce that problem about half the time, including at least a
  2228. couple of times when i got 
  2229.  
  2230.     ugen: internal: cannot open /tmp/ctmgta28249
  2231.  
  2232. what i'm now wondering is whether it's a problem with unix
  2233. compatibility in the kernel.  normally, system calls like read & write
  2234. go through a level that handles signals and retry.  in sprite, other
  2235. system calls have to do a similar check due to migration -- in
  2236. particular, Fs_IOControl and perhaps Fs_Select may be more robust than
  2237. in unix w.r.t. signals.  can open get aborted by a signal, for
  2238. example? 
  2239.  
  2240. anyway, i haven't been able to reproduce the "exit code 1" problem
  2241. with programs other than cc.  if compatibility is the problem, i
  2242. think we may just have to accept a lack of transparency for ultrix
  2243. binaries or make such binaries nonmigratable once active, or
  2244. something.  i'm open to suggestions.
  2245.  
  2246. i may do some more kernel hacking to try to get to the root of this
  2247. thing, but bob said something about rebuilding ds3100 objects using
  2248. gcc tonight so this isn't a good time.  i'll add it to my to-do list.
  2249.  
  2250.  
  2251.  
  2252.  
  2253. 929.
  2254. Date: Wed, 14 Feb 90 08:31:17 PST
  2255. From: ouster (John Ousterhout)
  2256. Subject: Piracy is in the debugger
  2257.  
  2258. "MachKernelExceptionHandler:  Address error on load: addr: 8013121e PC: 80085988"
  2259.  
  2260. Anyone care to take a look?  If not I'll reboot it in a couple of hours.
  2261.  
  2262.  
  2263.  
  2264.  
  2265. 930.
  2266. Date: Wed, 14 Feb 90 16:17:53 PST
  2267. From: Fred Douglis <douglis>
  2268. Subject: local fsync broken on new (ds3100?) kernels
  2269.  
  2270. mark sullivan thought his kernel was broken because he couldn't write
  2271. files in emacs.  it turns out that writing to a file on the same
  2272. machine (i.e., something in /user2 on assault, or /postdev on babylon)
  2273. generates an IO error in emacs.  since the file is written
  2274. successfully, it appears it must be fsync that's broken, just like for
  2275. nfsmount partitions.  mark says that this isn't the case on the
  2276. default ds3100 kernel running on babylon, but it is the case on
  2277. assault (1.056) and babylon running mark's new kernel.
  2278.  
  2279. i looked over the fs code and it appears that the Fs_FileWriteBackStub
  2280. got changed to call Fs_IOControlStub, except my impression is that
  2281. this won't work because Fs_IOControlStub will try to copy in the args
  2282. from user space instead of taking the args passed within the kernel.  
  2283.  
  2284.  
  2285.  
  2286.  
  2287. 931.
  2288. Date: Wed, 14 Feb 90 16:40:02 PST
  2289. From: Fred Douglis <douglis>
  2290. Subject: pmake hanging problem
  2291.  
  2292. it turns out the current version of pmake only selects on up to 32
  2293. descriptors at a time.  it seems that it's possible to get past that
  2294. point and then miss outstanding output.  this is the straw that's
  2295. breaking the camel's back... this problem is fixed in adam's newer
  2296. version, which i'm going to port to sprite.  
  2297.  
  2298.  
  2299.  
  2300.  
  2301. 932.
  2302. Date: Wed, 14 Feb 90 17:28:39 PST
  2303. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  2304. Subject: tx bug report
  2305.  
  2306.  
  2307. It is possible for the TERMCAP of a tx window to be wrong. This will
  2308. happen if your window manager does not display titles, and if your
  2309. tx does not display titles (ie the tx window doesn't have a title),
  2310. and if you specify the geometry of the tx window (eg tx =80x23+0+0).
  2311. I think the TERMCAP has too few lines.  Rpn will not work correctly.
  2312.  
  2313.  
  2314.  
  2315.  
  2316. 933.
  2317. Date: Wed, 14 Feb 90 20:45:06 PST
  2318. From: Fred Douglis <douglis>
  2319. Subject: sun4 loader bug
  2320.  
  2321. i compiled the migration daemon on a sun4 for a sun3.  the resulting
  2322. binary ran okay on some sun3s but not others.  on the others it
  2323. printed "couldn't extend heap" and exited.  (I  noticed that jhh was
  2324. having trouble with the sun3 X server saying the same thing recently
  2325. after it had been recompiled; i'll bet that tve compiled that on a
  2326. sun4 too.)  anyway, gdb showed that brk.c's "nextAddr" variable was set
  2327. to 0 rather than the address of 'end'.   relinking on a sun3 was fine. 
  2328.  
  2329.  
  2330.  
  2331.  
  2332. 934.
  2333. Date: Wed, 14 Feb 90 22:42:25 PST
  2334. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  2335. Subject: rcs -u vs co -u
  2336.  
  2337. "rcs -u" leaves a file root writable so the next "co -l" prompts
  2338. you if you really want to overwrite the file.  This confuses both
  2339. addhost and myself.  "co -u" will leave the file unwritable. I'm
  2340. not sure if this can be considered a bug of "rcs -u", but please
  2341. use "co -u" instead.
  2342.  
  2343.  
  2344.  
  2345.  
  2346. 935.
  2347. Date: Thu, 15 Feb 90 09:19:00 PST
  2348. From: brent (Brent Welch)
  2349. Subject: local fsync() fixed
  2350.  
  2351. Oops.  I left out a break statment in a switch,
  2352. so the fsync() worked but then fell through to
  2353. a default error case.  I've fixed this and
  2354. installed the fsio module (for all machine types).
  2355.  
  2356.  
  2357.  
  2358.  
  2359. 936.
  2360. Date: Thu, 15 Feb 90 10:00:41 PST
  2361. From: brent (Brent Welch)
  2362. Subject: VM clean up after failed recovery
  2363.  
  2364. A number of machines acted up after Allspice rebooted last night.
  2365. I traced the problem to skipped clean up actions in Vm_PageIn.
  2366. I think there is a trivial fix, and I've asked Mendel, Mary,
  2367. and Mike about it.  Symptoms include complaints about
  2368. page ins failing with status <1>, etc.
  2369.  
  2370.  
  2371.  
  2372.  
  2373. 937.
  2374. Date: Thu, 15 Feb 90 10:18:36 PST
  2375. From: root (The Sprite God)
  2376. Subject: kmsg doesn't work on sun4's
  2377.  
  2378. I can only use kmsg to a sun3 from a sun3.
  2379. I'm not sure about other machine cases.
  2380. >From a sun4, anyway, kmsg has no effect.
  2381.  
  2382.  
  2383.  
  2384.  
  2385. 938.
  2386. Date: Thu, 15 Feb 90 12:16:32 PST
  2387. From: pmchen@ginger.Berkeley.EDU (Peter M. Chen)
  2388. Subject: problems sending mail
  2389.  
  2390. When sending mail from mustard (a decstation), I get:
  2391. Reserved instruction in process 52c34 at pc=417570
  2392.  
  2393. in my syslog.
  2394. 32c36 DEBUG   0:00 send-mail -i -m bugs 
  2395. 72c0b DEBUG   0:00 send-mail -i -m bugs jhh 
  2396.  
  2397. And the mail doesn't come out.
  2398.  
  2399. ps.  The two bug reports I was sending out were:
  2400.  
  2401. 1) 
  2402. Subject: clear on sparcstations under UNIX
  2403. When I use "clear" on a sparcstation (coriander), it coredumps under tx.
  2404. I had just set the termcap manually (via the Control menu).
  2405.  
  2406. 2)
  2407. Subject: booting mustard (decstation)
  2408. (mustard used to be called apathy) 
  2409.  
  2410. When booting "new" (1.057), I often get a TLB LD miss which puts mustard
  2411. in the debugger.  This has happened three times, but doesn't always
  2412. happen.
  2413.  
  2414.  
  2415.  
  2416.  
  2417. 939.
  2418. Date: Thu, 15 Feb 90 12:25:58 PST
  2419. From: pmchen (Peter M. Chen)
  2420. Subject: unable to send mail on mustard
  2421.  
  2422. I can send mail fine on garlic (ds3100) but not from mustard (also a ds3100).
  2423. garlic is running 1.058; mustard is running 1.057 (but I don't think that's
  2424. it).
  2425.  
  2426.  
  2427.  
  2428. 940.
  2429. Date: Thu, 15 Feb 90 12:11:25 PST
  2430. From: pmchen (Peter M. Chen)
  2431. Subject: booting mustard (decstation)
  2432.  
  2433. (mustard used to be called apathy)
  2434.  
  2435. When booting "new" (1.057), I often get a TLB LD miss which puts mustard
  2436. in the debugger.  This has happened three times, but doesn't always
  2437. happen.
  2438.  
  2439.  
  2440.  
  2441.  
  2442. 941.
  2443. Date: Thu, 15 Feb 90 15:07:45 PST
  2444. From: Fred Douglis <douglis>
  2445. Subject: pdev master not always marked as gone
  2446.  
  2447. i'm having trouble with my migration daemon because it doesn't always
  2448. restart if the previous incarnation dies.  the file system says the
  2449. pdev is busy.  however, there's no migd process running and nothing
  2450. else that would have reason to be using that pdev, so it seems like a
  2451. reference count is getting messed up.  removing the pdev is fine, but
  2452. might result in pdevs showing up in lost+found or in any case
  2453. lingering about when they shouldn't (plus, the exclusive access for
  2454. the master is used to ensure that only one master runs per host, so
  2455. removing it must be done by hand rather than automatically by migd
  2456. itself). 
  2457.  
  2458.  
  2459.  
  2460. 942.
  2461. Date: Thu, 15 Feb 90 16:37:20 PST
  2462. From: mendel (Mendel Rosenblum)
  2463. Subject: migration and floating point don't mix
  2464.  
  2465. Programs using the floating point unit on sparcStations and decStations don't
  2466. migrate correctly.  The following test program demonstrates the problem if
  2467. you migrate it while its running.
  2468.  
  2469. double    gf;
  2470. main()
  2471. {
  2472.     register double    lf;
  2473.     gf = lf = 1.0;
  2474.     while (1) {
  2475.         gf += 1.0;
  2476.         lf += 1.0;
  2477.         if ((gf != lf)) {
  2478.             printf("Error gf = %f, lf = %f\n", gf, lf);
  2479.             exit(1);
  2480.         }
  2481.  
  2482.     }
  2483. }
  2484.  
  2485. It seems be close to 100% repeatable.  There nothing special about this
  2486. program. Just about any program that interacts with the floating point alot
  2487. will fail.  This a serious problem because gcc uses floating point when
  2488. compiling programs that contain floating point.
  2489.  
  2490.  
  2491.  
  2492.  
  2493. 943.
  2494. Date: Thu, 15 Feb 90 17:16:33 PST
  2495. From: shirriff (Ken Shirriff)
  2496. Subject: .mk files need to be cleaned up
  2497.  
  2498. As a possible spring cleaning activity, the /sprite/lib/pmake/*.mk files
  2499. need to be cleaned up, because there are a bunch of fixes that have
  2500. been made to some, but not all of the files.  For instance, boot.mk
  2501. didn't have the changes for ds3100 .s files.
  2502.  
  2503.  
  2504.  
  2505.  
  2506. 944.
  2507. Date: Thu, 15 Feb 90 17:23:23 PST
  2508. From: tve (Thorsten von Eicken)
  2509. Subject: lots of things missing in /sprite/lib/include/math.h !?
  2510.  
  2511. For example: (taken from SunOS)
  2512. #define M_LN2   0.69314718055994530942
  2513. #define M_PI    3.14159265358979323846
  2514. #define M_SQRT2 1.41421356237309504880
  2515.  
  2516. #define M_E             2.7182818284590452354
  2517. #define M_LOG2E         1.4426950408889634074
  2518. #define M_LOG10E        0.43429448190325182765
  2519. #define M_LN10          2.30258509299404568402
  2520. #define M_PI_2          1.57079632679489661923
  2521. #define M_PI_4          0.78539816339744830962
  2522. #define M_1_PI          0.31830988618379067154
  2523. #define M_2_PI          0.63661977236758134308
  2524. #define M_2_SQRTPI      1.12837916709551257390
  2525. #define M_SQRT1_2       0.70710678118654752440
  2526.  
  2527. none of which exists in sprite! And how 'bout the whole business of
  2528. providing exception handling?
  2529.  
  2530.  
  2531.  
  2532.  
  2533. 945.
  2534. Date: Thu, 15 Feb 90 17:11:08 PST
  2535. From: sequent!fubar@uunet.uu.net
  2536. Subject: Anti-social behavior in shutdown
  2537.  
  2538.     While testing my implementation of Mach_MonAbort & friends, 
  2539. shutdown displayed the following unfriendly behavior:
  2540.  
  2541. yads: shutdown -hlep
  2542. Unknown option "-hlep";  type "shutdown -help" for information
  2543. 00: Waiting with 1 user processes still alive
  2544. 00: Waiting with 10 kernel processes still alive
  2545. 00: Main exiting
  2546. 00: Rpc_Daemon exiting.
  2547. 00: Proc_ServerProc exiting.
  2548. 00: Proc_ServerProc exiting.
  2549. 00: Proc_ServerProc exiting.
  2550. 00: Proc_ServerProc exiting.
  2551. 00: Proc_ServerProc exiting.
  2552. 00: Recov_Proc exiting.
  2553. 00: Syncing disks
  2554. 00: Returning to firmware...
  2555. Flush caches
  2556.  
  2557. Date 90/02/16 00:52:51 UTC
  2558. *
  2559.     Shutdown shouldn't actually do anything if there are bad
  2560. options.
  2561.  
  2562.  
  2563.  
  2564.  
  2565. 946.
  2566. Date: Thu, 15 Feb 90 22:28:42 PST
  2567. From: shirriff (Ken Shirriff)
  2568. Subject: Re: Anti-social behavior in shutdown
  2569.  
  2570. The problem with shutdown is actually a problem with Opt_Parse.
  2571. As far as I can tell, if Opt_Parse doesn't like an argument it prints
  2572. a message to stderr and skips it, and there's no way for the program
  2573. to tell there's a problem.  I think Opt_Parse should return an error
  2574. in this case.
  2575.  
  2576.  
  2577.  
  2578. 947.
  2579. Date: Fri, 16 Feb 90 08:23:24 PST
  2580. From: ouster (John Ousterhout)
  2581. Subject: Re: .mk files need to be cleaned up
  2582.  
  2583. In response to Ken's note:
  2584.  
  2585.     As a possible spring cleaning activity, the /sprite/lib/pmake/*.mk files
  2586.     need to be cleaned up, because there are a bunch of fixes that have
  2587.     been made to some, but not all of the files.  For instance, boot.mk
  2588.     didn't have the changes for ds3100 .s files.
  2589.  
  2590. I don't think this should wait for spring cleaning.  Can whoever added
  2591. the change for ".s" files check to make sure those changes are in all
  2592. of the .mk files including boot.mk?  If there are other things that aren't
  2593. uniformly applied to the .mk files, let's get them fixed too.
  2594.  
  2595. Just to refresh everyone's memory on the purpose of spring cleaning,
  2596. it's not to fix random small bugs that accumulate:  those should be
  2597. fixed when found.  Spring cleaning is for larger things that don't
  2598. make sense as part of someone's research or as part of everyday bug
  2599. fixing.  If we allowed bugs to be deferred until spring cleaning
  2600. then we'd quickly reach a state where no bugs were fixed except during
  2601. spring cleaning.
  2602.  
  2603.  
  2604.  
  2605.  
  2606. 948.
  2607. Date: Fri, 16 Feb 90 08:41:39 PST
  2608. From: Fred Douglis <douglis>
  2609. Subject: Re: Log problem 
  2610.  
  2611. [John reported a bug sending mail to sprite log, with a complaint that logger
  2612. couldn't create /tmp/sh-something-or-other.]
  2613.  
  2614. The problem is that the file in /tmp already existed.  This is partly
  2615. an artifact of not cleaning up /tmp on reboots.  I renew my suggestion
  2616. of many months/years ago that we change tmp to be /hosts/%HOST/tmp, clean
  2617. that directory on boottime, and have a separate shared /sprite/tmp along the
  2618. lines of /usr/tmp.  This would require that HOST be treated like MACHINE
  2619. in pathname lookups, which would simplify a lot of other stuff too.
  2620.  
  2621.  
  2622.  
  2623.  
  2624. 949.
  2625. Date: Fri, 16 Feb 90 10:17:01 PST
  2626. From: sullivan (Mark Sullivan)
  2627. Subject: rcp
  2628.  
  2629. This is new.
  2630.  
  2631. babylon<3> !rcp
  2632. rcp shangri-la:.login .
  2633. C0644 673 .login
  2634.  
  2635. No it did not copy the  file.
  2636.  
  2637.  
  2638.  
  2639.  
  2640. 950.
  2641. Date: Fri, 16 Feb 90 10:48:28 PST
  2642. From: eklee (Edward K. Lee)
  2643. Subject: possible mail bug
  2644.  
  2645. Here's the header from one of the messages I received today/yesterday.
  2646. The 'From' line is incorrect; it should read rlee@island.seas.ucla.edu.
  2647. I've moved the mail file to /sprite/spool/mail/eklee.bak.
  2648. Also, any ideas why it took the mail two days to reach me?
  2649.  
  2650. Ed
  2651. ----cut--
  2652. >From rlee@island.Berkeley.EDU Thu Feb 15 20:48:58 1990
  2653. Date: Wed, 14 Feb 90 10:46:40 PST
  2654. From: Robert Lee <rlee@island.Berkeley.EDU>
  2655. To: eklee@ernie.Berkeley.EDU
  2656. Subject: Hi Ed
  2657.  
  2658.  
  2659.  
  2660.  
  2661. 951.
  2662. Date: Fri, 16 Feb 90 13:35:56 PST
  2663. From: Fred Douglis <douglis>
  2664. Subject: cc1.68k went into debugger
  2665.  
  2666. unfortunately there was no unstripped version to debug.  i think it
  2667. was subsequent to eviction.  is cc1.68k compiled with hardware
  2668. floating point?  If so, the same bug mendel found on sun4s and ds3100s
  2669. could exist with sun3s (though compiling his program on sun3s with -m68881
  2670. didn't demonstrate the bug.)
  2671.  
  2672. in any case, is there any reason not to leave around unstripped
  2673. versions of commonly used programs such as cc*?  
  2674.  
  2675.  
  2676.  
  2677.  
  2678. 952.
  2679. Date: Fri, 16 Feb 90 14:08:52 PST
  2680. From: Fred Douglis <douglis>
  2681. Subject: pdev master screwups
  2682.  
  2683. for the past several minutes, mint thought there was a master
  2684. associated with /hosts/kvetching/migd.pdev, while kvetching did not.
  2685. stats of that file returned an error.  opening the file as a master
  2686. got an error from mint saying the file was busy.  unlinking the file
  2687. on kvetching got a "nonexistent file" complaint, but i was able to
  2688. unlink it successfully from another host, at which point i could then
  2689. start the daemon successfully.  
  2690.  
  2691.  
  2692.  
  2693.  
  2694. 953.
  2695. Date: Fri, 16 Feb 90 21:40:56 PST
  2696. From: rab (Robert A. Bruce)
  2697. Subject: new sparcStations
  2698.  
  2699. Garth reported that he was having problems rsh'ing from apathy
  2700. to other sparcStations.  So I tried it from sabotage, and I am unable
  2701. to rlogin in to any of the new sparcStations.  That particular error
  2702. message seems to depend on what machine I attempt to login from.
  2703.  
  2704. When I attempt to login from another sparcStation, or a sun3:
  2705.  
  2706. tyranny.Berkeley.EDU: address already in use
  2707.  
  2708. When I attepmt to login from a ds3100:
  2709.  
  2710. tyranny.Berkeley.EDU: unknown error (0)
  2711.  
  2712. When I attempt to login from unix:
  2713.  
  2714. Protocol error, tyranny.Berkeley.EDU closed connection
  2715.  
  2716. I get the same result from all the new sparcStations.
  2717.  
  2718.  
  2719.  
  2720.  
  2721.  
  2722. 954.
  2723. Date: Sat, 17 Feb 90 17:06:54 PST
  2724. From: rab (Robert A. Bruce)
  2725. Subject: oregano
  2726.  
  2727. /c started hanging.  I ran rpcstat on oregano
  2728. and saved the output in ~/oregano.rpc.  I tried to kill
  2729. and restart the daemons, but that didn't help.
  2730.  
  2731. When I ran shutdown, oregano went into the debugger:
  2732.  
  2733. Fatal Error: HandleRelease, handle <1,38,3,2> "/c" not locked.
  2734. Entering Debugger with a FPU Inexact Result exception at PC 0xe0639cc
  2735.  
  2736. The instruction at 0xe0639cc is not a fp instruction, and the fpu
  2737. is not set up to trap on inexact results, so I don't think that
  2738. was the real reason for the trap.
  2739.  
  2740.  
  2741.  
  2742. 955.
  2743. Date: Sun, 18 Feb 90 14:08:39 PST
  2744. From: gibson (Garth Gibson)
  2745. Subject: sparcstation gremlin
  2746.  
  2747. gremlin seems to be broken on the sparcstation (apathy)
  2748. as it flashes the image is shifted about an inch to the left and
  2749. Xor'd over the prior image - interesting results, but limited
  2750. usefulness
  2751.  
  2752.  
  2753.  
  2754. 956.
  2755. Date: Mon, 19 Feb 90 14:54:43 PST
  2756. From: Fred Douglis <douglis>
  2757. Subject: Re: find 
  2758.  
  2759. actually, you were partly correct.  adding -print was necessary, but
  2760. so was specifying a file rather than a link.  ~choi is actually
  2761. /users/choi, which is a link to something else.  find doesn't traverse
  2762. symbolic links (thankfully), which is why "find ~ -name foo -print"
  2763. wouldn't work either (not so thankfully).  
  2764.  
  2765. i'm not quite sure what the best way is to address this problem.
  2766. having a fixed /users directory is really useful, but it has hidden
  2767. side effects such as this one.  spriters: is this worth talking about
  2768. on wednesday?
  2769.  
  2770. ron: do "find ~/. ..." and it should work fine.
  2771.  
  2772.  
  2773.  
  2774.  
  2775. 957.
  2776. Date: Mon, 19 Feb 90 15:37:13 PST
  2777. From: Fred Douglis <douglis>
  2778. Subject: another sun3 program with ld problem
  2779.  
  2780. i installed a new version of update a few days ago.  turns out it
  2781. wouldn't run on a sun3, or at least not fenugreek just now.  i
  2782. relinked it on fenugreek and it worked okay.  i've installed the new
  2783. version.  
  2784.  
  2785.  
  2786.  
  2787.  
  2788. 958.
  2789. Date: Tue, 20 Feb 90 10:39:44 PST
  2790. From: mendel (Mendel Rosenblum)
  2791. Subject: sun4 floating point problem.
  2792.  
  2793. Signal handlers that do floating point operations don't work on the sun4 
  2794. because of floating point state is not saved when a user's signal handler
  2795. is called.  If the signal handler uses the FPU it will trashe the FP 
  2796. registers active at the time of the signal.  The ds3100 and the sun3 seems
  2797. not to have this problem.
  2798.  
  2799.  
  2800.  
  2801.  
  2802. 959.
  2803. Date: Tue, 20 Feb 90 12:07:22 PST
  2804. From: mendel (Mendel Rosenblum)
  2805. Subject: sun4 migration bug
  2806.  
  2807. Migrating programs when nextPc != pc+4 doesn't work on the sun4 because 
  2808. Proc_ResumeMigProc calls Mach_StartUserProc which always sets nextPc to
  2809. pc+4.  If a process is unluckly enought to take a timer interrupt in the
  2810. delay slot of a branch instructions the branch will not be taken when 
  2811. execution is resume after the migration.   
  2812.  
  2813.  
  2814.  
  2815.  
  2816. 960.
  2817. Date: Tue, 20 Feb 90 17:58:40 PST
  2818. From: Fred Douglis <douglis>
  2819. Subject: bad interaction between swap space & debug
  2820.  
  2821. on a sun4c paging from /sprite, when /sprite filled up, "debug foo"
  2822. would hang in a totally unkillable state.  apparently, even when the
  2823. space freed up, those processes were wedged big time.  when the
  2824. machine was eventually shut down, those processes wouldn't die.  
  2825.  
  2826.  
  2827.  
  2828.  
  2829. 961.
  2830. Date: Tue, 20 Feb 90 21:45:48 PST
  2831. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  2832. Subject: machTypeMips.c
  2833.  
  2834.  
  2835. The file /sprite/src/kernel/proc/machTypeMips.c  does a #define
  2836. mips, even though the file is not being compiled for a mips machine.
  2837. This is potentially very bad.  Right now it screws up Brent's
  2838. addition of the FMT_MY_FORMAT constant to fmt.h.  I don't think
  2839. this is a problem since that constant is not used in the file, but
  2840. I think it is bad practice anyway.
  2841.  
  2842.  
  2843.  
  2844.  
  2845. 962.
  2846. Date: Tue, 20 Feb 90 22:26:31 PST
  2847. From: pmchen (Peter M. Chen)
  2848. Subject: reserved instruction
  2849.  
  2850. I get a reserved instruction error running on garlic (ds3100).
  2851.  
  2852. Reserved instruction in process f3a0c at pc=402974
  2853.  
  2854. This was running kernel 1.058.  The program does use floating point, but
  2855. I thought this bug was gone.
  2856.  
  2857. ps. John H., any word on the ds3100 crash that crashed after 112 runs
  2858.     (when the screen blanked, etc.)?
  2859.  
  2860.  
  2861.  
  2862. 963.
  2863. Date: Tue, 20 Feb 90 23:58:47 PST
  2864. From: rab (Robert A. Bruce)
  2865. Subject: Missing links in directory
  2866.  
  2867. The directory /users/gibson/RAID/sim.RELI/RCS/ has no links 
  2868. for `.' or `..'.
  2869.  
  2870.  
  2871.  
  2872.  
  2873. 964.
  2874. Date: Wed, 21 Feb 90 02:04:21 PST
  2875. From: tve (Thorsten von Eicken)
  2876. Subject: migd problem
  2877.  
  2878. Fred, I think your migd just gave up.
  2879. I ran pmake.new, the I saw an "RPC to terrorism hung" message on the
  2880. console and now the pmake hangs forever. I tried to rlogin again
  2881. (working from home...) and got the login but then everything hangs
  2882. (regardless of which machine I log into). Now I have a "la" in my
  2883. .login which doesn't arrange things. I finally got rid of that and
  2884. now things are ok, except for what's hung. All this happened at
  2885. about 2am.
  2886.  
  2887.  
  2888.  
  2889.  
  2890. 965.
  2891. Date: Wed, 21 Feb 90 07:50:10 PST
  2892. From: mgbaker (Mary Gray Baker)
  2893. Subject: trashed mail file?
  2894.  
  2895. I had two messages as one in my mail file:
  2896. ******************************************************************************
  2897. >From rab Tue Feb 20 23:59:01 1990
  2898. From: rab (Robert A. Bruce)
  2899. To: bugs
  2900. Cc: rab, gibson
  2901. Subject: Missing links in directory
  2902. Date: Tue, 20 Feb 90 23:58:47 PST
  2903.  
  2904. The directory /users/gibson/RAID/sim.RELI/RCS/ has no links 
  2905. for `.' or `..'.
  2906.  
  2907.         -bob
  2908.  
  2909.  
  2910. Received: by sprite.Berkeley.EDU (5.59/1.29)
  2911.     id AA998971; Wed, 21 Feb 90 00:16:16 PST
  2912. Date: Wed, 21 Feb 90 00:16:16 PST
  2913. From: elm (ethan miller)
  2914. Message-Id: <9002210816.AA998971@sprite.Berkeley.EDU>
  2915. To: mgbaker
  2916. Subject: Re: joyride
  2917.  
  2918. No problem.  Actually, joyride is not my machine; it belongs to either
  2919. Rich Drewes or Pete Leong, who are using those desks.
  2920.  
  2921. ethan
  2922.  
  2923.  
  2924.  
  2925. 966.
  2926. Date: Wed, 21 Feb 90 08:39:32 PST
  2927. From: Fred Douglis <douglis>
  2928. Subject: Re: migd problem 
  2929.  
  2930. I did a ps on terrorism and both migds were in the SUSP state!  I have
  2931. no idea why this happened -- I'll add something to ignore the signal --
  2932. but continuing them seems to have cleared things up.
  2933.  
  2934.  
  2935.  
  2936. 967.
  2937. Date: Wed, 21 Feb 90 09:31:02 PST
  2938. From: ouster (John Ousterhout)
  2939. Subject: Missing syslog's
  2940.  
  2941. When I attempted to run wall today I noticed that neither
  2942. tyranny nor sedition has a syslog device in its host-specific
  2943. directory.  Does this mean that the script to add a host isn't
  2944. creating them automatically?
  2945.  
  2946.  
  2947.  
  2948. 968.
  2949. Date: Wed, 21 Feb 90 12:38:55 PST
  2950. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  2951. Subject: /sprite/admin/hosts
  2952.  
  2953.  
  2954. This file is a little out of date.  We should be sure to update it
  2955. when machines change physical location and "owners".   I also
  2956. noticed that the entry for sage is wrong.  If addhost was used to
  2957. add the new sparcstation under the name sage then there is a bug.
  2958. If addhost wasn't used then it should have been.
  2959.  
  2960.  
  2961.  
  2962.  
  2963. 969.
  2964. Date: Wed, 21 Feb 90 13:14:45 PST
  2965. From: mendel (Mendel Rosenblum)
  2966. Subject: rint() library routine broken
  2967.  
  2968. If rint() math library routine doesn't work on sun3s and sun4s running Sprite.
  2969. It does work on the ds3100.  An example program is:
  2970.  
  2971. #include <math.h>
  2972. main()
  2973. {
  2974.     double    in, out;
  2975.  
  2976.     in = 2040109464.65;
  2977.     out = rint(in);
  2978.     printf("%f %f\n", in, out);
  2979. }
  2980.  
  2981. which prints out:
  2982. 2040109464.650000 2040109464.000000
  2983. on sun3s and sun4 and should print out:
  2984. 2040109464.650000 2040109465.000000
  2985.  
  2986.  
  2987.  
  2988.  
  2989. 970.
  2990. Date: Thu, 22 Feb 90 09:20:15 PST
  2991. From: ouster (John Ousterhout)
  2992. Subject: Mint reboot
  2993.  
  2994. When I came in this morning, Mint did not respond to rlogin
  2995. connections.  I went upstairs and restarted the daemons, but
  2996. the "restartservers" script hung without completing.  At that
  2997. point I gave up and reboooted Mint.  However, it's possible
  2998. that all the problems were do to csgw's being detached from
  2999. the network, so perhaps the rebooting was unnecessary.
  3000.  
  3001.  
  3002.  
  3003.  
  3004. 971.
  3005. Date: Thu, 22 Feb 90 10:48:41 PST
  3006. From: brent (Brent Welch)
  3007. Subject: Re: Mint reboot
  3008.  
  3009. Right, the bootp program goes into the debugger if the
  3010. gethostbyname() call fails.  It checks against a return of -1
  3011. instead of 0, and gets a bus error.  It seems goofy that
  3012. gethostbyname() fails. Shouldn't we patch it to consult
  3013. /etc/spritehosts (doesn't the Host_ library use /etc/spritehosts?).
  3014. This causes mint's boot script to fail.  I had mint up and
  3015. limping last night during the partition, but I'm glad you
  3016. rebooted it.
  3017.  
  3018.  
  3019.  
  3020.  
  3021. 972.
  3022. Date: Thu, 22 Feb 90 11:55:58 PST
  3023. From: ouster (John Ousterhout)
  3024. Subject: Tftp enabled in inetd.conf?
  3025.  
  3026. Some of our replicated inetd.conf files have the "tftp" line enabled
  3027. and some have it commented out.  I think it needs to be commented out
  3028. everywhere:  if tfptd is needed it's started in the bootcmds file
  3029. explicitly, right?  I had troubles at DEC with this and couldn't get
  3030. diskless machines to boot if inetd was dealing with tftp requests.
  3031. Things worked when I modified inetd.conf to have the tftpd line
  3032. commented out.  Does anyone know anything about this?
  3033.  
  3034.                     -John-
  3035.  
  3036.  
  3037. 973.
  3038. Date: Thu, 22 Feb 90 15:57:20 PST
  3039. From: mgbaker (Mary Gray Baker)
  3040. Subject: Getting wrong TM type by default
  3041.  
  3042. All of a sudden today I'm getting TM=sun3 defined while compiling on
  3043. treason.  I thus accidentally overwrote a command in the sun3 area since
  3044. "pmake installsun4" decided to do a TM=sun3 instead.  Has somebody changed
  3045. something?
  3046.  
  3047.  
  3048.  
  3049.  
  3050. 974.
  3051. Date: Thu, 22 Feb 90 23:33:07 PST
  3052. From: Fred Douglis <douglis>
  3053. Subject: migration fixes
  3054.  
  3055. i've  installed a new mach for the ds3100 that i believe fixes the
  3056. floating point migration bug.  it doesn't fix the "error code NN"
  3057. problem we see with cc -- i don't believe we've come up with a
  3058. satisfactory solution to that, except that maybe moving to gcc and
  3059. compiling with a sprite-native library will retry calls that need to
  3060. be retried -- but it should fix the problem of having inconsistent
  3061. results.
  3062.  
  3063. i've also fixed the floating point problem for the sun4c.. in each
  3064. case it was a question of (1) getting the FPU registers and (2)
  3065. setting the FPU status bit to indicate they should be restored.  while
  3066. i was at it i put in a check for a non-sequential PC, requiring that I
  3067. put an extra check in sun4.md/machCode.c for the SIG_MIGRATE_TRAP bit
  3068. being set after no more signals are officially pending.  (On the sun3
  3069. this makes a function call on every special handling return, and it
  3070. could just as easily be a macro.. but i guess the new machines are the
  3071. ones that count.  the sun4 didn't enable it at all.)
  3072.  
  3073. for the latter fix, i tried migrating something that was just bouncing
  3074. around a lot between goto's, subroutine calls and assignment
  3075. statements.  it doesn't migrate successfully, consistently, but it's
  3076. not exactly a repeatable test case either.  i'll keep at it. 
  3077.  
  3078. now i think the only remaining FPU problem is the sun4 signal
  3079. handlers, right? i guess i won't install mach for the sun4 until
  3080. that's also there, unless mary thinks i shouldn't wait...
  3081.  
  3082.  
  3083.  
  3084. 975.
  3085. Date: Fri, 23 Feb 90 11:40:11 PST
  3086. From: Fred Douglis <douglis>
  3087. Subject: rpc timeouts foil migd
  3088.  
  3089. when i shut down the server running migd, other hosts get RPC timeouts
  3090. and their migd daemons freeze up until recovery.  from a glance at the
  3091. source code for Fs_Write, making the writes non-blocking won't help,
  3092. since it doesn't look at that.  any suggestions?  certainly there are
  3093. programs that don't want to know about timeouts, and where declaring a
  3094. host dead immediately and returning an error wouldn't be doing anyone
  3095. any favors.  in this case, though, i need more support for that.
  3096. maybe an iocontrol on the stream to say not to wait for recovery?
  3097.  
  3098. i'm sure brent will have some ideas on this when he gets back...
  3099. and/or we can discuss this as an agenda item on monday.
  3100.  
  3101.  
  3102.  
  3103.  
  3104. 976.
  3105. Date: Fri, 23 Feb 90 15:58:46 PST
  3106. From: douglis@dill (Fred Douglis)
  3107. Subject: grim network deadlocks; fscheck debug problem
  3108.  
  3109. /etc/spritehosts got locked up this afternoon.  mint wanted to tell
  3110. treason to return the attributes for this file, but treason thought
  3111. the file was locked and the callback was blocked waiting fo r it to
  3112. be unlocked.  when treason recovered with mint a little before that,
  3113. it skipped spritehosts because it thought it was locked.  
  3114.  
  3115. mint then told kvetching to flush back the attributes, but this timed
  3116. out because kvetching died with a garbaged stack and/or garbaged
  3117. heap (it was in a panic from free() and the backtrace wasn't 
  3118. entirely sensical.)  
  3119.  
  3120. by the way, for the record, the earlier catastrophe started when
  3121. allspice ran out of pmegs, since it didn't reduce its fs cache size
  3122. when it was rebooted during the network meltdown and didn't make it
  3123. through bootcmds.  then upon reboot, two fscheck processes went
  3124. into the debugger. it is very very bad that (1) these can go into
  3125. the debugger when run in foreground since there's no way to
  3126. get a prompt or an rlogin to debug them. maybe fscheck should catch the
  3127. signal, report an error and cause bootcmds to bail to a single-user
  3128. shell? 
  3129.  
  3130. jhh rebooted allspice single user to run fscheck by hand in the background,
  3131. and this time it finished fine. exiting the su shell caused use to
  3132. run fscheck yet again, and allspice eventually came up.  i was gone
  3133. then but understand it, and mint, died pretty horribly after that --
  3134. someone else can send mail if they know the details.  
  3135.  
  3136.  
  3137.  
  3138.  
  3139. 977.
  3140. Date: Fri, 23 Feb 90 16:10:21 PST
  3141. From: Fred Douglis <douglis>
  3142. Subject: fs/recov bug
  3143.  
  3144. larceny crashed right after recovery with mint earlier today.  its syslog
  3145. indicated that /hosts/larceny/migInfo.new was skipped during recovery,
  3146. whatever exactly that means.  Then the panic was 
  3147.  
  3148.     GetDirtyBlock, bad block
  3149.  
  3150. because blockPtr->fileNum was 2576 and cacheInfoPtr->hdrPtr->fileID.minor
  3151. was -2576.
  3152.  
  3153.  
  3154.  
  3155.  
  3156. 978.
  3157. Date: Fri, 23 Feb 90 17:03:04 PST
  3158. From: Fred Douglis <douglis>
  3159. Subject: problem with new sun3 compiler?
  3160.  
  3161. I found that all of a sudden, migd on sun3s was listing the load as
  3162. the most recent queue length rather than aging it using a weighted
  3163. average.  i saw that the weights were an array of floats all set to 0,
  3164. apparently because they weren't double-aligned.  i tried loading with
  3165. /sprite/cmds.sun3.old/ld and /sprite/src/cmds/ld.old/sun3.md/ld, and
  3166. nothing worked.  this program runs just fine on ds3100s and sun4s,
  3167. just not on sun3s.  i can tell it's not the program screwing up
  3168. because gdb on the binary, without running, prints the array as three
  3169. zeros despite the code
  3170.  
  3171.     #define WEIGHT1 0.9200444146293232     /* exp(-1/12) */
  3172.     #define WEIGHT2 0.9834714538216174     /* exp(-1/60) */
  3173.     #define WEIGHT3 0.9944598480048967     /* exp(-1/180) */
  3174.  
  3175.     double migd_Weights[] = {WEIGHT1, WEIGHT2, WEIGHT3};
  3176.  
  3177.  
  3178. loading with the sun4 didn't help.  recompiling from the sun4 did.
  3179. (and the linked image even executes on fenugreek, and nextAddr isn't
  3180. 0.  son of a gun.  but when i find another executable that has that, bob,
  3181. i'll let you know...).
  3182.  
  3183.  
  3184.  
  3185.  
  3186. 979.
  3187. Date: Fri, 23 Feb 90 17:56:57 PST
  3188. From: douglis (Fred Douglis)
  3189. Subject: recovery is the pits (and so is sprite right now!)
  3190.  
  3191. Keywords: recovery bugs
  3192.  
  3193. 1) each machine probably just recovered with mint at least 10 times.
  3194. i asked mary what it would take to fix the recovery storm problem, and 
  3195. she said it would be easy to fix but hard to then measure the effects
  3196. of various changes.  how about a mean nasty kernel that gets recovery storms
  3197. that can be booted for testing purposes and a nice clean kernel that
  3198. doesn't get recovery storms and lets people get work done?
  3199.  
  3200. 2) larceny bit the big one yet again due to recovery.  this time, 
  3201. an unaligned address trap in the kernel, right after recovery.  seems
  3202. like recovery is trashing memory.  
  3203.  
  3204. working on sprite today has been a miserable experience.  lately it seems
  3205. to be worse than it was when john first decided things were bad enough
  3206. to offer a dinner for more stability.  what next?
  3207.  
  3208.  
  3209.  
  3210.  
  3211. 980.
  3212. Date: Sat, 24 Feb 90 06:09:59 PST
  3213. From: rab (Robert A. Bruce)
  3214. Subject: assault ran out of memory
  3215.  
  3216. Assault crashed a few minutes ago.  It said `Vm_RawAlloc out of memory'.
  3217. Here is the stack trace:
  3218.  
  3219.    0 .block549 ["sysPrintf.c":209, 0x800b8ed0]
  3220.    1 panic(va_alist = -2146494756) ["sysPrintf.c":209, 0x800b8ed0]
  3221.    2 Vm_RawAlloc(numBytes = -1073288280) ["vmSubr.c":254, 0x800ca588]
  3222.    3 MemChunkAlloc(size = 384, addressPtr = 0xc0803ee8) ["memSubr.c":94, 0x8008e
  3223. bc8]
  3224.    4 .block366 ["memory.c":508, 0x8008ef44]
  3225.    5 malloc(numBytes = -1073292840) ["memory.c":508, 0x8008ef44]
  3226.    6 .block316 ["fsSpriteDomain.c":420, 0x8007f538]
  3227.    7 Fsrmt_RpcOpen(srvToken = 0xc006eba8, clientID = 17, command = 7, storagePtr
  3228.  = (nil)) ["fsSpriteDomain.c":420, 0x8007f538]
  3229.    8 .block489 ["rpcServer.c":199, 0x800ae55c]
  3230.    9 Rpc_Server() ["rpcServer.c":199, 0x800ae55c]
  3231.   10 .block505 ["schedule.c":944, 0x800b2714]
  3232.   11 Sched_StartKernProc(func = 0x800ae1a0) ["schedule.c":944, 0x800b2714]
  3233.   12 Sched_StartKernProc(func = [bad address (0xc0804008)]) ["schedule.c":914, 0
  3234. x800b268c]
  3235.  
  3236.  
  3237.  
  3238. 981.
  3239. Date: Sat, 24 Feb 90 09:50:10 PST
  3240. From: ouster (John Ousterhout)
  3241. Subject: Tyranny crash
  3242.  
  3243. When I came in this morning Tyranny was looping infinitely printing
  3244. messages on the console and apparently trying to enter the debugger.
  3245. The messages reported a deadlock on "Proc:serverMutex @ 0xf612cee8".
  3246. The holder PC was 0xf60752f4 and the current PC was 0xf6075294.  Both
  3247. of these addresses correspond to the MASTER_LOCK at the beginning
  3248. of CallFunc in procServer.c.
  3249.  
  3250.  
  3251.  
  3252. 982.
  3253. Date: Sun, 25 Feb 90 15:22:20 PST
  3254. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  3255. Subject: loadavg bug
  3256.  
  3257. I find it hard to believe that mint has been up for over two months.
  3258.  
  3259. mint     sun3   up  60+23:14 refuses  0.94  0.72  0.54 (0+03:08)
  3260.  
  3261.  
  3262.  
  3263.  
  3264. 983.
  3265. Date: Sun, 25 Feb 90 15:47:12 PST
  3266. From: Fred Douglis <douglis>
  3267. Subject: Re: loadavg bug 
  3268.  
  3269. there is no way for user programs to find out the boot time so loadavg
  3270. uses the date of /hosts/%HOST/boottime.  when mint booted it couldn't
  3271. find out the current time and did not use a reasonable default (0 ==
  3272. 1/1/70.)  can't it look at its own TOD clock??
  3273.  
  3274.  
  3275.  
  3276.  
  3277. 984.
  3278. Date: Mon, 26 Feb 90 10:11:02 PST
  3279. From: ouster (John Ousterhout)
  3280. Subject: ar broken for sun4
  3281.  
  3282. The sun4 version of ar seems to be broken.  If I type "pmake debug"
  3283. in the Tcl library (running on a SPARCstation), it compiles all the
  3284. .go files, but the "ar" line seems to do nothing:  it doesn't create
  3285. a sun4.md/libtcl_g.a file.  I also noticed that typing "ar tv" on
  3286. libtcl_g.a (back when the file existed) caused ar to dump core (this
  3287. was why I deleted it and started recompiling everything).
  3288.  
  3289. I see that ar was created last night by rab, and I know that it worked
  3290. OK on Saturday.  I also see that there is no backup version of ar in
  3291. /sprite/cmds.sun4.old.  Shouldn't there *always* be a backup version of
  3292. any program that has been installed recently?
  3293.  
  3294.  
  3295.  
  3296.  
  3297. 985.
  3298. Date: Mon, 26 Feb 90 11:22:37 PST
  3299. From: Fred Douglis <douglis>
  3300. Subject: assault died again 
  3301.  
  3302. it was identical to the bug bob reported, from what i could tell.  i
  3303. examined it in kdbx and it seems that in Fsrmt_RpcRead, paramsPtr is
  3304. set properly initially (enough to get the right stream & hdr pointers)
  3305. but then gets trashed, so it's no longer the same value as
  3306. storagePtr->requestParamPtr.  then Fsrmt_RpcRead calls malloc with the
  3307. garbage pointed to by the bad paramsPtr.  i don't see any obvious way
  3308. for the stack to get clobbered this badly, but i wonder if maybe the
  3309. pointer is being saved in a register that got clobbered and not
  3310. restored during an interrupt.  i noticed that each time that assault
  3311. died with a garbage pointer it's been shortly after recovery with
  3312. some client, if that's of interest.
  3313.  
  3314.  
  3315.  
  3316.  
  3317. 986.
  3318. Date: Mon, 26 Feb 90 11:47:27 PST
  3319. From: pmchen (Peter M. Chen)
  3320. Subject: xproof
  3321.  
  3322. running with ditroff -Pxproof throws Xmfb into the debugger.
  3323.  
  3324. For example, try
  3325.  
  3326. cd ~pmchen/striping/simul/sigarch
  3327. tbl -Plw508-5 camera | grn -Plw508-5 | eqn -Plw508-5 | ditroff -me -Pxproof
  3328.  
  3329.  
  3330. 987.
  3331. Date: Mon, 26 Feb 90 17:56:29 PST
  3332. From: Fred Douglis <douglis>
  3333. Subject: addHosts needs to update ginger
  3334.  
  3335. ginger:/etc/hosts.equiv should have an entry for all sprite hosts
  3336. since they may wish to access non-sprite printers.  this probably
  3337. can't be done automatically, but a message to this effect would be
  3338. good.  (there's already a statement to this effect in
  3339. howto/addNewHost.)
  3340.  
  3341.  
  3342.  
  3343.  
  3344. 988.
  3345. Date: Mon, 26 Feb 90 23:40:56 PST
  3346. From: shirriff (Ken Shirriff)
  3347. Subject: dvips
  3348.  
  3349. I got dvips working in /sprite/cmds/dvips, using Fred's makefile setup.
  3350. For some reason the printer dies if the postscript contains the comment:
  3351. %%EndProlog
  3352. and works if I remove this.  dvips worked on two test files and then died
  3353. when I tried to print a third test file (leiden.dvi), which has a
  3354. letterhead at the top, it died.  The old dvi2ps handles this.
  3355. So my conclusion is that the new dvips doesn't work as well as the
  3356. old dvi2ps.  If anyone wants to figure out why dvips dies, they're
  3357. welcome to try.
  3358.  
  3359.  
  3360.  
  3361.  
  3362.  
  3363. 989.
  3364. Date: Tue, 27 Feb 90 12:28:18 PST
  3365. From: Fred Douglis <douglis>
  3366. Subject: dvips still doesn't work
  3367.  
  3368. i tried it on an extensive paper (the migration TOCS submission) and
  3369. the printer chewed on it for many minutes and then gave up.  I found I
  3370. had to remove some stuff in my TeX document that took advantage of
  3371. something in the dvi2ps postscript profile that i couldn't get to work
  3372. for dvips.  now it prints normal text okay, but it complained:
  3373.  
  3374. psif[c4946]: status: (Error: VMerror; OffendingCommand: def)
  3375. psif[c4946]: Unrecognized status message: Error: VMerror; OffendingCommand: def
  3376.  
  3377. at about the time it tried to include a postscript figure.  does this
  3378. mean it ran out of memory?
  3379.  
  3380. btw, the ErrorLog had many entries of the form 
  3381.  
  3382.     psif[1494e]: status: (status: waiting; source: serial 25)
  3383.  
  3384. -- it turns out that stuff like this has caused lw477's
  3385. spool directory to use more than a megabyte of space.
  3386.  
  3387.  
  3388.  
  3389.  
  3390.  
  3391. 990.
  3392. Date: Tue, 27 Feb 90 18:12:41 PST
  3393. From: Fred Douglis <douglis>
  3394. Subject: Re: dead migration daemon on terrorism 
  3395.  
  3396.     at 6:09PM Tuesday.  Is this normal (or at least directly attributable
  3397.     to what you're doing)?
  3398.  
  3399. yup, it's (sort of) my fault.  the daemon was running on a host with a
  3400. slow clock, confusing things.  i did an rdate and it caused the daemon
  3401. to think all the hosts were down since their timestamps were old.
  3402. there was a bug that caused the daemon to return an error to the other
  3403. daemons, and i hope i've fixed that now.  i'll restart the daemons any
  3404. moment.
  3405.  
  3406. i really wish sprite had adjtime()....
  3407.  
  3408.  
  3409.  
  3410.  
  3411. 991.
  3412. Date: Tue, 27 Feb 90 21:47:50 PST
  3413. From: shirriff (Ken Shirriff)
  3414. Subject: Strange sendmail bug
  3415.  
  3416. I had 4 sendmail processes on nutmeg (sun3) go into the debugger.
  3417. The problem was the data segment from 0x40000 to 0x42000 had been
  3418. zeroed for some reason.
  3419.  
  3420.  
  3421.  
  3422.  
  3423. 992.
  3424. Date: Wed, 28 Feb 90 00:59:07 PST
  3425. From: tve (Thorsten von Eicken)
  3426. Subject: /sprite/lib/sendmail/aliases & RCS
  3427.  
  3428. What's the deal here? The file is world writable (how nice...) and I
  3429. can't check it in/out (ci error: Directory RCS/ not writable). Is there
  3430. some policy here?
  3431.     Thorsten
  3432.  
  3433.  
  3434.  
  3435.  
  3436. 993.
  3437. Date: Wed, 28 Feb 90 11:47:45 PST
  3438. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  3439. Subject: tx =
  3440.  
  3441. If you type 'tx =' tx will go into an infinite loop.
  3442.  
  3443.  
  3444.  
  3445.  
  3446. 994.
  3447. Date: Wed, 28 Feb 90 13:55:50 PST
  3448. From: brent (Brent Welch)
  3449. Subject: migrated rcp => permission denied
  3450.  
  3451. If I migrate an rcp from a host that IS in a remote .rhosts file
  3452. to a host that IS NOT in the remote .rhosts file, I get 'permission denied'.
  3453. My makefile for ds3100 kernels, for example, does an rcp of the kernel
  3454. image to dill.  If this is migrated to a host that isn't in my .rhosts
  3455. file on dill, then the rcp (or "rsh date") aborts with "permission denied".
  3456. I thought that the ipServer on the home node was used...
  3457.  
  3458.  
  3459.  
  3460.  
  3461. 995.
  3462. Date: Wed, 28 Feb 90 14:24:18 PST
  3463. From: mendel (Mendel Rosenblum)
  3464. Subject: FPU interrupt in Kernel mode
  3465.  
  3466. When I run my simulator on piquante it sometimes dies with an Illegal 
  3467. Instruction trap with a syslog message of "FPU interrupt in Kernel mode".
  3468. Anyone interested in this?
  3469.  
  3470.  
  3471.  
  3472.  
  3473. 996.
  3474. Date: Wed, 28 Feb 90 14:33:07 PST
  3475. From: ouster (John Ousterhout)
  3476. Subject: Piracy in debugger
  3477.  
  3478. Piracy is in the debugger with a "Reserved instruction" trap
  3479. in the kernel.  Anyone care to take a look?  John H.?  I'll
  3480. leave it around for a few days.  Let me know if you get done
  3481. with it and I'll reboot it.
  3482.  
  3483.  
  3484.  
  3485.  
  3486. 997.
  3487. Date: Wed, 28 Feb 90 16:21:54 PST
  3488. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  3489. Subject: tx bug
  3490.  
  3491. If the user doesn't have write permission to /hosts/<host>, then tx goes
  3492. into the debugger.  It tries to print out an error message that it
  3493. can't open the pseudo-device, but the name parameter is bogus at that
  3494. point.
  3495.  
  3496.  
  3497.  
  3498.  
  3499. 998.
  3500. Date: Wed, 28 Feb 90 17:34:48 PST
  3501. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  3502. Subject: update bug
  3503.  
  3504. The update program does not set permissions correctly. In particular,
  3505. if you have a non-setuid file, then the permissions of the destination
  3506. file are set to the permissions of the source file modified by the
  3507. current user's umask.  This means when I updated all the stuff over in
  3508. Cory everything is not writable by world.  I will fix update unless
  3509. this isn't a bug.
  3510.  
  3511.  
  3512.  
  3513.  
  3514. 999.
  3515. Date: Wed, 28 Feb 90 17:52:44 PST
  3516. From: mendel (Mendel Rosenblum)
  3517. Subject: cc Exit 1 on ds3100
  3518.  
  3519. If you control-Z and background a running "cc" command on the ds3100 it will
  3520. exit with a status of 1.  For example:
  3521.  
  3522. piquante% cc -c -O0 t2.c
  3523. ^Z
  3524. Suspended
  3525. piquante% bg
  3526. [2]    cc -c -O0 t2.c &
  3527. piquante% 
  3528. [2]    Exit 1               cc -c -O0 t2.c
  3529.  
  3530.  
  3531.  
  3532.  
  3533.  
  3534. 1000.
  3535. Date: Wed, 28 Feb 90 18:17:18 PST
  3536. From: Fred Douglis <douglis>
  3537. Subject: Re: migrated rcp => permission denied 
  3538.  
  3539. this was a case of bitrot.  even as of january, rcp was apparently
  3540. being linked with a version of gethostname that would return the
  3541. physical host rather than the virtual host.  (maybe this is something
  3542. that used to work, then things got changed to use a system call and
  3543. it was broken for a while, and then it worked again?)
  3544.  
  3545. in any case, i'm installing new copies of rcp -- please let me know if
  3546. this doesn't fix your problem.
  3547.  
  3548.  
  3549.  
  3550.  
  3551. 1001.
  3552. Date: Thu, 01 Mar 90 11:07:20 PST
  3553. From: Fred Douglis <douglis>
  3554. Subject: host timeouts
  3555.  
  3556. the ConsistTimeout stuff seems to go through a full rpc timeout for
  3557. every file rather than deciding that a host is down and then marking
  3558. everything as available immediately.  this causes things to hang (rpc
  3559. to mint is hung.... a minute later RPC ok, and immediately another
  3560. hung rpc).  
  3561.  
  3562. perhaps this would be fixed if we finally move to marking hosts as
  3563. crashed as soon as an RPC times out.   should we?
  3564.  
  3565.  
  3566.  
  3567.  
  3568.  
  3569. 1002.
  3570. Date: Thu, 1 Mar 90 14:01:56 PST
  3571. From: pmchen (Peter M. Chen)
  3572. Subject: la hangs
  3573.  
  3574. On mustard (ds3100), "la" hangs in the WAIT state.  No message to the syslog,
  3575. though some previous messages on the syslog were:
  3576. 3/1/90 12:24:21 larceny (73) RmtPdev "/sprite/admin/migInfo.pdev" <2097153,-1976963045> Reopen failed : cacheable/busy conflict
  3577. 3/1/90 12:24:21 larceny (73) RmtPdev "/sprite/admin/migInfo.pdev" <2097153,-1976962679> Reopen failed : cacheable/busy conflict
  3578. 3/1/90 12:24:21 larceny (73) Recovery failed: cacheable/busy conflict
  3579. <12>Mar  1 12:24:21 syslog: Mig_GetAllInfo: error during ioctl to global master: the file handle is out of date
  3580. <14>Mar  1 12:24:44 syslog: DbLockDesc: lock timed out (file /sprite/admin/userLog).
  3581.  
  3582.  
  3583.  
  3584.  
  3585. 1003.
  3586. Date: Thu, 1 Mar 90 16:45:48 PST
  3587. From: pmchen (Peter M. Chen)
  3588. Subject: migd dies
  3589.  
  3590. In ~pmchen/striping/simulsabre, I pmake -J 30 and larceny died, which killed
  3591. my migd daemon.
  3592. Here's my syslog:
  3593.  
  3594. RPC srvr 52c3e
  3595. RPC srvr d2c15
  3596. RPC srvr 72c31
  3597. RPC srvr 72c37
  3598. RPC srvr 82c35
  3599. <write> 3/1/90 16:42:24 larceny (73) RPC timed-out
  3600. <30>Mar  1 16:42:29 migd[12c19]: Write to global daemon timed out.
  3601. <close> 3/1/90 16:42:35 larceny (73) RPC timed-out
  3602. <dev open> 3/1/90 16:42:40 larceny (73) RPC timed-out
  3603. <dev open> 3/1/90 16:42:48 larceny (73) RPC timed-out
  3604. 3/1/90 16:42:55 larceny (73) - recovering handles
  3605. 3/1/90 16:42:55 larceny (73) RmtPdev "/sprite/admin/migInfo.pdev" <2097153,-1976962201> Reopen failed : cacheable/busy conflict
  3606. 3/1/90 16:42:55 larceny (73) RmtPdev "/sprite/admin/migInfo.pdev" <2097153,-1976962056> Reopen failed : cacheable/busy conflict
  3607. 3/1/90 16:42:55 larceny (73) Recovery failed: cacheable/busy conflict
  3608. <12>Mar  1 16:44:26 syslog: No migd daemon running on your host.
  3609.  
  3610.  
  3611.  
  3612.  
  3613. 1004.
  3614. Date: Thu, 01 Mar 90 12:57:39 PST
  3615. From: sequent!fubar@uunet.UU.NET
  3616. Subject: Problem with arp?
  3617.  
  3618. /sprite/src/daemons/arp/arp.c contains (around line 163):
  3619.  
  3620.     if ((Net_NetToHostShort(packet.protocolType) != NET_ETHER_IP) ||
  3621.         (packet.opcode != NET_ARP_REQUEST)) {
  3622.         continue;
  3623.     }
  3624.  
  3625.     I suspect this should be:
  3626.  
  3627.     if ((Net_NetToHostShort(packet.protocolType) != NET_ETHER_IP) ||
  3628.         (Net_NetToHostShort(packet.opcode) != NET_ARP_REQUEST)) {
  3629.         continue;
  3630.     }
  3631.  
  3632.     Note the ntohs translation for packet.opcode.  The original (I
  3633. guess) would be ok on Suns, since their byte order is the same as
  3634. network byte order (whichever that one is, I can never remember).  On
  3635. the i386, the "packet.opcode" field comes in set to 0x100, this is
  3636. NET_ARP_REQUEST in network byte order.
  3637.  
  3638.  
  3639.  
  3640.  
  3641. 1005.
  3642. Date: Thu, 1 Mar 90 23:56:28 PST
  3643. From: shirriff (Ken Shirriff)
  3644. Subject: sage crashed
  3645.  
  3646. I tried to do a pmake on sage (sun4c.BW.243) and it crashed with
  3647. MachHandleWeirdoInstruction: the error occurred in a user process.
  3648. MachHandleWeirdoInstruction: unaligned address trap in the kernel!
  3649.  
  3650. The stack trace is:
  3651. #0  panic (__builtin_va_alist=-167711087) (sysPrintf.c line 209)
  3652. #1  0xf600f308 in MachHandleWeirdoInstruction (trapType=112, pcValue=(char *) 0xf6093c2c "\320\004", trapPsr=4194501) (sun4c.md/machCode.c line 1529)
  3653. #2  0xf6010810 in MachReturnFromTrap ()
  3654. #3  0xf6093c2c in PreparePage (virtAddrPtr=(Vm_VirtAddr *) 0xf82dbe40, protFault=0, curPTEPtr=(unsigned int *) 0xfb) (vmPage.c line 1629)
  3655. #4  0xf6093874 in Vm_PageIn (virtAddr=(char *) 0x1dfff7c8 
  3656.  
  3657. Apparently the problem is that somewhere in Vm_PageIn, the value of page
  3658. changed from 122879 to -131219904, which caused curPtePtr to be 0xfb, a
  3659. bogus pointer which caused it to die.
  3660.  
  3661. The machine is in the debugger if any sun4c experts wish to take a look.
  3662.  
  3663.  
  3664.  
  3665.  
  3666. 1006.
  3667. Date: Fri, 02 Mar 90 09:43:11 PST
  3668. From: rab (Robert A. Bruce)
  3669. Subject: trashed file
  3670.  
  3671. /sprite/lib/include/assert.h is trashed.  It has part of a mail
  3672. message from sequent!fubar@uunet.UU.NET appended to it.
  3673.  
  3674. The modification time on the file is Feb 20 21:41, but the mail
  3675. message was sent Thu Mar  1 20:48:24 1990.
  3676.  
  3677. Something very interesting is that assert.h was trashed once before
  3678. (last October) in *exactly* the same place.
  3679.  
  3680. I moved the trashed file to /sprite/trashed/assert.h.trashed.
  3681.  
  3682.  
  3683.  
  3684.  
  3685.  
  3686. 1007.
  3687. Date: Fri, 02 Mar 90 11:20:29 PST
  3688. From: Fred Douglis <douglis>
  3689. Subject: piquante is still sick
  3690.  
  3691. it crashes regularly.  the latest one was "bus error on ifetch".
  3692. doesn't sound good.  i think the hardware is bad and the whole machine
  3693. should be taken out and shot.... :)
  3694.  
  3695.  
  3696.  
  3697.  
  3698. 1008.
  3699. Date: Fri, 2 Mar 90 11:24:32 PST
  3700. From: shirriff (Ken Shirriff)
  3701. Subject: Re: sage crashed
  3702.  
  3703. Yes, the code is like:
  3704. page = transVirtAddr.page;   ( where transVirtAddr.page is valid )
  3705. ...
  3706. ptePtr = VmGetAddrPTEPtr(&transVirtAddr, page)
  3707. Later it crashes because ptePtr is garbage.  Page is garbage at this point,
  3708. so presumably it was garbage at the above line, which caused ptePtr to be
  3709. invalid.  But on second thought, unless it was compiled with the CLEAN
  3710. flag, VmGetAddrPTEPtr should have checked that page was valid, so maybe
  3711. my theory is wrong.
  3712.  
  3713.  
  3714.  
  3715.  
  3716. 1009.
  3717. Date: Fri, 2 Mar 90 13:59:24 PST
  3718. From: brent (Brent Welch)
  3719. Subject: Assault crashed and I figured it out
  3720.  
  3721. Assault didn't actually crash, but it was left
  3722. with a process that had a huge stack segment and
  3723. was unkillable because of a deadlock.  I figured it
  3724. out - had to do with error handling that I added
  3725. to handle disk full conditions.  I had changed things
  3726. so a pagein was aborted after a segment had gone bad,
  3727. but I didn't clean up everything associated with
  3728. the segment.  (VmParseVirtAddr has side-effects
  3729. I was unaware of.)  This fix will appear in 1.060
  3730.  
  3731.  
  3732.  
  3733.  
  3734. 1010.
  3735. Date: Fri, 02 Mar 90 11:41:49 PST
  3736. From: sequent!fubar@uunet.UU.NET
  3737. Subject: More arp trouble, plus bonus typedef problem
  3738.  
  3739.  
  3740.  
  3741.     In /sprite/src/daemons/arp/arp.c (around line 115):
  3742.  
  3743.         if (!Lookup(Net_NetToHostInt(packet.targetProtAddr), ðerAddrPtr)) {
  3744.             continue;
  3745.         }
  3746.  
  3747.  
  3748.     The "Net_NetToHostInt" here is wrong; the inet_addr() function
  3749. in the inet library (where the internet addresses come from that are
  3750. put into arp's hash table) returns inet addresses in network order;
  3751. having this extra conversion here before the lookup causes arp not to
  3752. function on machines with different byte order than network order.
  3753.  
  3754.     Also, the typedef for Net_InetAddress (to an unsigned int)
  3755. causes the Net_ArpPacket structure to be misaligned, since longwords
  3756. are 4-byte aligned.  Net_InetAddress should "really" be a u_char[4],
  3757. but this causes trouble for functions that wish to return type
  3758. Net_InetAddress.  Making Net_InetAddress a struct with four u_char
  3759. entries might fix the alignment problem, but might not (I've already
  3760. had to define NET_ETHER_BAD_ALIGNMENT, since the compiler does 4-byte
  3761. alignment after the "real" Net_EtherHdr structure).
  3762.  
  3763.     To get arp to work for the time being, I've made the *ProtAddr
  3764. fields of Net_ArpPacket into char[4]'s, and in arp all references to
  3765. them look like "*((int *)packet.senderProtAddr)."  Pretty nasty, but
  3766. it does work.
  3767.  
  3768.  
  3769.  
  3770.  
  3771. 1011.
  3772. Date: Sat, 3 Mar 90 03:30:53 PST
  3773. From: tve (Thorsten von Eicken)
  3774. Subject: libc/gnulib problem: no __builtin_new for sun4 (only for sun3)
  3775.  
  3776. Turns out g++ uses that.
  3777.  
  3778.  
  3779.  
  3780. 1012.
  3781. Date: Sat, 3 Mar 90 10:36:57 PST
  3782. From: mendel (Mendel Rosenblum)
  3783. Subject: new pmake bug
  3784.  
  3785. Pmake doesn't work correctly if invoked as "make".  All commands exit with
  3786. an error code of 1.  For example:
  3787.  
  3788. jaywalk% make
  3789. cc  -c f.c
  3790. *** Error code 1
  3791.  
  3792. Stop.
  3793. jaywalk% 
  3794.  
  3795. If I uses "pmake" or "make -X" it works fine.  It appears to be independant
  3796. of the host selected and happens on both the sun4c and ds3100.  When I typed 
  3797. "make -d" the
  3798. last couple of lines were:
  3799.  
  3800. f.o:< = f.c
  3801. Examining f.c...modified 14:54:02 Feb 28, 1990...up-to-date.
  3802. Examining f.o...non-existent...modified before source...out-of-date.
  3803. f.o:> = f.c
  3804. f.o:? = f.c
  3805. cc  -c f.c
  3806. Rmt_Begin: selected host 63 for migration.
  3807. Error in Proc_RemoteExec: the file does not exist
  3808. *** Error code 1
  3809.  
  3810. Stop.
  3811.  
  3812.  
  3813.  
  3814.  
  3815. 1013.
  3816. Date: Sat, 3 Mar 90 12:09:29 PST
  3817. From: tve (Thorsten von Eicken)
  3818. Subject: pmake on sun3s?? -> segmentation violation
  3819.  
  3820. If I type make or pmake or make -X in /mic/g++/src/libg++.dist/tests on
  3821. a sun3 I get a Segmentation violation.
  3822.  
  3823.  
  3824.  
  3825.  
  3826. 1014.
  3827. Date: Sat, 3 Mar 90 13:39:26 PST
  3828. From: pmchen@envy-150.Berkeley.EDU (Peter M. Chen)
  3829. Subject: network problems?
  3830.  
  3831. I was on mustard (ds3100) remotely from envy when things got really
  3832. slow.  So, I logged out and tried to get to allspice (rlogin)
  3833. to see if everything was ok.
  3834.  
  3835. That hung, so I tried assault, which hung.  Then I pinged allspice and
  3836. assault, which hung.  Then I pinged oregano, which pinged back ok.  I tried
  3837. to rlogin to oregano, which hung.  Then I repinged oregano, which *hung*.
  3838. Is it possible that my rlogin's killed the ipServer (or some such),
  3839. so that machines couldn't ping back?
  3840.  
  3841. I pinged mustard successfully, tried to rlogin (unsuccessful), then 
  3842. re-pinged UNsuccessfully.
  3843.  
  3844.  
  3845.  
  3846.  
  3847. 1015.
  3848. Date: Sat, 3 Mar 90 15:53:33 PST
  3849. From: mendel (Mendel Rosenblum)
  3850. Subject: error message problem
  3851.  
  3852. If I run a sun3 binary on a sun4c I get the following message in my syslog:
  3853.  
  3854. Proc_Exec: can't run sun3 (0413) a.out file on 
  3855.  
  3856.  
  3857.  
  3858.  
  3859. 1016.
  3860. Date: Sun, 4 Mar 90 01:33:29 PST
  3861. From: tve (Thorsten von Eicken)
  3862. Subject: these unsynched clocks are a pain!
  3863.  
  3864. I fighting this all the time:
  3865.   13 -rw-rw-r--  1 tve      mic         12510 Mar  4 01:30 stream.C
  3866.   64 -rw-rw-r--  1 tve      mic         58305 Mar  4  1990 stream.o
  3867.    9 -rw-r--r--  1 tve      mic          8900 Mar  4 01:30 streambuf.C
  3868.   35 -rw-rw-r--  1 tve      mic         35582 Mar  4 01:32 streambuf.o
  3869. In case you haven't encountered this (I doubt it): the funny date format
  3870. for stream.o means "future". Every time I edit stream.C, I have to delete
  3871. stream.o before typing pmake. grrrrr.
  3872.  
  3873.  
  3874.  
  3875.  
  3876. 1017.
  3877. Date: Fri, 02 Mar 90 11:38:04 PST
  3878. From: sequent!fubar@uunet.UU.NET
  3879. Subject: More arp trouble, plus bonus typedef problem
  3880.  
  3881.     In /sprite/src/daemons/arp/arp.c (around line 115):
  3882.  
  3883.         if (!Lookup(Net_NetToHostInt(packet.targetProtAddr), ðerAddrPtr)) {
  3884.             continue;
  3885.         }
  3886.  
  3887.     The "Net_NetToHostInt" here is wrong; the inet_addr() function
  3888. in the inet library (where the internet addresses come from that are
  3889. put into arp's hash table) returns inet addresses in network order;
  3890. having this extra conversion here before the lookup causes arp not to
  3891. function on machines with different byte order than network order.
  3892.  
  3893.     Also, the typedef for Net_InetAddress (to an unsigned int)
  3894. causes the Net_ArpPacket structure to be misaligned, since longwords
  3895. are 4-byte aligned.  Net_InetAddress should "really" be a u_char[4],
  3896. but this causes trouble for functions that wish to return type
  3897. Net_InetAddress.  Making Net_InetAddress a struct with four u_char
  3898. entries might fix the alignment problem, but might not (I've already
  3899. had to define NET_ETHER_BAD_ALIGNMENT, since the compiler does 4-byte
  3900. alignment after the "real" Net_EtherHdr structure).
  3901.  
  3902.     To get arp to work for the time being, I've made the *ProtAddr
  3903. fields of Net_ArpPacket into char[4]'s, and in arp all references to them
  3904. look like "*((int *)packet.senderProtAddr)
  3905.  
  3906.  
  3907.  
  3908.  
  3909. 1018.
  3910. Date: Sun, 4 Mar 90 11:25:57 PST
  3911. From: mendel (Mendel Rosenblum)
  3912. Subject: Rpc serverID too large error.
  3913.  
  3914. When I came in this morning larceny and treason were in the debugger with the
  3915. message "Rpc_Call, server ID too large".   I rebooted larceny and was going 
  3916. to debug treason but it was running a kernel I couldn't find the symbols to:
  3917.     SPRITE VERSION MB.004 (sun4c) (1 Mar 90 12:06:24)
  3918. I was able to poke around using an incorrect symbol table. 
  3919. It appears that someone was trying to migrate the command 
  3920. "echo foo bar xyz pdq" to host 303848.  The calling stack 
  3921. looked like:
  3922.  
  3923. Proc_RemoteExec calls
  3924. Proc_Exec calls
  3925. ProcInitiateMigration calls
  3926. ProcMigCommand calls
  3927. Rpc_Call with host of 303848.
  3928.  
  3929. The environment being passed to Proc_Exec looked like:
  3930.  
  3931. TTY=/hosts/treason/rlogin2
  3932. TERM=z29
  3933. RHOST=kvetching.Berkeley.EDU
  3934. MACHINE=sun4
  3935. RUSER=douglis
  3936. USER=douglis
  3937. HOME=/user2/douglis
  3938. SHELL=/sprite/cmds/tcsh
  3939. ....
  3940.  
  3941. It seems like either the Rpc module should tolerate sends to bogus ids or
  3942. the Proc module should validate user provided ids.  I think the Rpc system
  3943. should catch the problem.
  3944.  
  3945. p.s.
  3946. I put a patch for the problem so no more sparcStations will crash. The fix
  3947. was to remove the account ("douglis") from /etc/passwd.
  3948.  
  3949.  
  3950.  
  3951.  
  3952.  
  3953. 1019.
  3954. Date: Mon, 05 Mar 90 10:10:56 PST
  3955. From: Fred Douglis <douglis>
  3956. Subject: sun4c deadlock again
  3957.  
  3958. larceny died with a deadlock on Proc_Mutex and wouldn't enter the
  3959. debugger or respond to L1 keys.  
  3960.  
  3961.  
  3962.  
  3963.  
  3964. 1020.
  3965. Date: Mon, 5 Mar 90 10:14:48 PST
  3966. From: mendel (Mendel Rosenblum)
  3967. Subject: serious problem with allspice
  3968.  
  3969. While checking its disk, allspice gets DMA Bus errors from its SCSI 
  3970. adaptors.  This is very very bad. 
  3971.  
  3972.  
  3973.  
  3974.  
  3975. 1021.
  3976. Date: Mon, 05 Mar 90 10:45:31 PST
  3977. From: Fred Douglis <douglis>
  3978. Subject: explanation of cc error code 1 problem
  3979.  
  3980. regarding mendel's mail about suspending and resuming pmake, and
  3981. earlier messages about migration also causing cc to return an error
  3982. code of 1, i did the simplest test possible:
  3983.  
  3984.     % cc -o foo foo.c
  3985.     ^Z
  3986.     % fg
  3987.       % echo %status
  3988.     1
  3989.  
  3990. (don't ask me why this didn't occur to me before... :)
  3991.  
  3992. anyway, the following comment in machUNIXSyscall.c might explain the
  3993. problem:
  3994.  
  3995.  *    The routines in this file and the other associated files in this
  3996.  *    directory (socket.c, ioctl.c, etc.) provide full binary compatible
  3997.  *    with the following exceptions:
  3998.  *
  3999.  *        1) System call handlers are called with a Sprite context
  4000.  *           rather than a UNIX context.  This could be fixed by
  4001.  *           setting a compatibility bit in the machine state struct
  4002.  *           when the first UNIX system call happens and then emulating
  4003.  *           UNIX signal handler calling conventions after that for
  4004.  *           the process.
  4005.  * ...
  4006.  *        3) Reads that are interrupted do not restart like they
  4007.  *           do in Sprite.  The problem is that if we restart them
  4008.  *           in here then the user never has the oppurtunity to 
  4009.  *           handle the signal.  A possible solution is to return to
  4010.  *           user mode and then when the signal handler returns restart
  4011.  *           the system call.  This will be complicated because the
  4012.  *           arguments have to be kept around somehow.
  4013.  
  4014. i presume the problem is related to (3) though it might also relate to
  4015. (1).  
  4016.  
  4017. let's talk about how to deal with this (and when) at today's meeting.
  4018.  
  4019.  
  4020.  
  4021.  
  4022. 1022.
  4023. Date: Mon, 5 Mar 90 11:44:27 PST
  4024. From: eklee (Edward K. Lee)
  4025. Subject: diff seg faults on ds3100
  4026.  
  4027. Ed
  4028. ---
  4029. forgery% pwd
  4030. /users/eklee/264/hw3/myparse3
  4031. forgery% diff . ../../hw2/myparse3
  4032. Only in .: dist
  4033. Common subdirectories: ./lib and ../../hw2/myparse3/lib
  4034. Only in .: symtbl.c
  4035. diff: ./tc1: no such file or directory
  4036. diff: ../../hw2/myparse3/tc1: no such file or directory
  4037.  
  4038. Segmentation violation
  4039. forgery%
  4040. ---
  4041.  
  4042.  
  4043.  
  4044. 1023.
  4045. Date: Mon, 05 Mar 90 12:32:47 PST
  4046. From: Fred Douglis <douglis>
  4047. Subject: more evidence of register corruption on ds3100
  4048.  
  4049. my emacs periodically dies spontaneously.  this time, when i debugged
  4050. it, it was at a point where a "register" variable had a garbage value,
  4051. yet two statements before it had set another variable to the value in
  4052. the register and that value was fine.  the only intervening statements
  4053. were setting things pointed to by the pointer in the register.  so,
  4054. maybe it took a signal at the wrong time or something, or it took an
  4055. interrupt in the kernel, but things weren't kosher.  
  4056.  
  4057. i'm mentioning this because it's a lot like what we see on assault
  4058. when it dies with a bad value for malloc.  
  4059.  
  4060.  
  4061.  
  4062.  
  4063. 1024.
  4064. Date: Mon, 5 Mar 90 12:40:46 PST
  4065. From: shirriff (Ken Shirriff)
  4066. Subject: tx clear under unix fixed.
  4067.  
  4068. The previous bug report about clear seg faulting under tx on Unix can be
  4069. deleted.  The problem was that the clear program allocates a 20 character
  4070. buffer for the clear string and doesn't check if the string fits.  The
  4071. tx clear string was 24 characters long and for some reason this killed
  4072. clear on Unix but not Sprite.  I shortened the tx clear string and now it
  4073. works.
  4074.  
  4075.  
  4076.  
  4077.  
  4078. 1025.
  4079. Date: Mon, 05 Mar 90 13:47:04 PST
  4080. From: Fred Douglis <douglis>
  4081. Subject: address space grows without bound
  4082.  
  4083. it just hit me that no one has reported this bug so far:
  4084.  
  4085. this morning, allspice started hanging up badly, slowing down the
  4086. system terribly.  it turned out that an errant csh on gluttony was
  4087. creating a massive address space (132MB or so) and was paging it all
  4088. to allspice.  seems to me this sort of thing has happened before.  we
  4089. really need the equivalent of "limit" on sprite to handle this
  4090. problem.  that, or at least handle such swap hogs more gracefully by
  4091. degrading their priority or something?
  4092.  
  4093. by the way, this was due to a bug in csh -- johnw's .login file had as
  4094. its last line something like
  4095.  
  4096.     if (%?RHOST) setenv DISPLAY "%RHOST"\:0
  4097.  
  4098. and csh went bonkers.
  4099.  
  4100.  
  4101. 1026.
  4102. Date: Tue, 6 Mar 90 16:44:15 PST
  4103. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  4104. Subject: pmake broken
  4105.  
  4106. Ken and I have been trying to run pmake (on fenugreek and thyme respectively).
  4107. All it does is sit there in the wait state.  Pmake.old works fine.
  4108.  
  4109.  
  4110.  
  4111. 1027.
  4112. Date: Tue, 06 Mar 90 17:40:45 PST
  4113. From: Fred Douglis <douglis>
  4114. Subject: assault rpc servers stuck busy
  4115.  
  4116. i rebooted piquante.  first assault hung piquante's broadcast, and
  4117. then it hung up on all its prefix requests, so now it doesn't respond
  4118. to rpcs by piquante at all.  perhaps if we leave things in this state
  4119. for the time being we can look at it during this evening's debugging
  4120. session?  
  4121.  
  4122.  
  4123.  
  4124.  
  4125. 1028.
  4126. Date: Tue, 06 Mar 90 22:52:39 PST
  4127. From: Fred Douglis <douglis>
  4128. Subject: coprocessor unusable on ds3100
  4129.  
  4130. yet another bug that piquante hit.  this was while it was running a
  4131. routine that was cpu-intensive but didn't use the fpu at all, so the
  4132. only floating point stuff would be migd, etc.  i had disabled
  4133. migrations as well, so that wasn't it.
  4134.  
  4135.  
  4136.  
  4137.  
  4138. 1029.
  4139. Date: Wed, 7 Mar 90 08:47:36 PST
  4140. From: brent (Brent Welch)
  4141. Subject: Recovery bugs, SIGPIPE Loop
  4142.  
  4143. We learned two main things last night while beating on the system.
  4144. First, the recent changes I made to the recov module to prevent
  4145. a race cause a deadlock instead.  It is possible in kernels
  4146. 1.059 and 1.060 for multiple Proc_ServerProcs to go through the
  4147. recovery protocol at the same time.  Using these processes up
  4148. leads to deadlocks because other background processing (reaping
  4149. dead processes, etc.) doesn't get done.  Furthermore, eventually
  4150. the Proc_Server processes get stuck on a locked process table
  4151. entry - one that is locked waiting for something to be done
  4152. by a Proc_ServerProc (page out?).  I remember this deadlock from
  4153. before.  I'm pretty sure I know how to code the recovery module
  4154. so it doesn't miss reboot events and also doens't have more than
  4155. one process (Proc_ServerProc) doing recovery.  This bug also explains
  4156. the recovery loop that was experienced last week.
  4157.  
  4158. The other thing that Mendel found was a recursive SIGPIPE handler.
  4159. Apparently telnet is sometimes hooked to a pipe.  When the pipe gets
  4160. closed the telnet process gets a SIGPIPE.  The handler for SIGPIPE
  4161. writes to stderr, which in this case was the same closed pipe.
  4162. Voila, recursive invokations of the SIGPIPE signal handler.
  4163. I'm not sure the best way to handle this.  Perhaps only one signal
  4164. per pipe?
  4165.  
  4166. Earlier in the day Mendel figured out why Allspice occasionally hangs
  4167. things for long periods of time.  The root of the cause is the
  4168. push of the file descriptor to disk during a delete.  This can
  4169. queue up behind many blocks, plus the condition variable that is
  4170. waited on is for the whole dirty list, not just the block in question.
  4171. Thus the descriptor write can block a long time.  The problem is
  4172. compounded because the directory is locked during the delete, so
  4173. other naming operation that pass through the directory are also blocked.
  4174. One fix is to eliminate the synchronous push of the descriptor.
  4175. This still makes me nervous, in spite of the block-copying support
  4176. in fscheck.  Other improvements include fixing the wait so it
  4177. terminates when the descriptor block (not all dirty blocks) is written
  4178. out.  Finally, the directory may not need to be locked after the
  4179. name has been removed.
  4180.  
  4181. BUGS STILL AT LARGE.  The file server's never crashed, which is good and
  4182. bad.  The bad news is that we could not duplicate the memory trashing
  4183. problem that had been plaguing Allspice.  We probably screwed up by
  4184. not using the exact same kernel and the exact same dump/make dist
  4185. combination that caused the other problems.  Also, Allspice had a
  4186. corrupted dirty list on Monday, and we dont' know how to repeat that.
  4187. I'll spend a few minutes looking at the code.  The DMA bus error still
  4188. exists, and it occurred once last night when we rebooted Allspice.
  4189. I've always seen in occur on a descriptor read (this is a multiple
  4190. block read, right?) - it doesn't seem to cause damage, although it
  4191. could cause damaged files to be skipped over.  Finally, a couple of
  4192. the crashes recently have been to bad RPC packets.  The parameter block
  4193. is just junk, and that eventually causes something to get an address
  4194. error.  Last fall I fixed some retransmission bugs in the RPC system
  4195. that were causing this kind of thing.  There may well be some
  4196. more bugs like this.  It is probably a good idea to make the RPC
  4197. stubs more robust anyway, so that in the future we get error
  4198. messages instead of crashes.
  4199.  
  4200. ASSIGNMENTS:  I'll fix the recov module.  Perhaps Mendel can look
  4201. into the delete-block-wait-directory-locking problem.  Either Menel`
  4202. or myself (perhaps the two of us) should also look at the code
  4203. that uses the dirty list.  (Remember we found that the dirty list
  4204. header referenced a file that had NIL dirty list pointers.)
  4205. Someone should think about the SIGPIPE handler problem.  I'm also
  4206. a good candidate to make the RPC stubs more robust to bad parameters.
  4207. We should all think about the memory trashing bug.  Our only clue
  4208. is that a hash table bucket was partially overwritten with an
  4209. array of <pointer, pointer, small int> structs.
  4210.  
  4211.  
  4212.  
  4213. 1030.
  4214. Date: Wed, 7 Mar 90 09:42:07 PST
  4215. From: brent (Brent Welch)
  4216. Subject: Mint and Allspice glitches
  4217.  
  4218. Mint ran out of memory this morning.  The malloc was for 8 bytes,
  4219. so it really did run out for some semi-legitamate reason.  One clue
  4220. I found was that the bin for objects of size 24 bytes (this includes
  4221. 4 or 8 bytes of administrative bytes) was completely used.  This
  4222. often indicates a core-leak for objects of that size.  There used to
  4223. be a VM data structure of this size with a leak, but I though ti
  4224. was plugged.  (I can't remember what it was - can anyone else?)
  4225.  
  4226. Allspice got the infamous "Level 15 interrupt" and entered the
  4227. debugger.  I ended up just continuing it because the kernel image
  4228. on rosemary was truncated.  I've fixed that.  We should fix the
  4229. interrupt handler for level 15 interrupts.
  4230.  
  4231. Finally, I think the global migration deamon is dead, or there was
  4232. an election conflict.  I think that Allspice started up a global deamon,
  4233. but it used to be running on host #17 (murder).  I got this clue from
  4234. a PdevControlReopen conflict, #17 lost to #14.
  4235.  
  4236.  
  4237.  
  4238. 1031.
  4239. Date: Wed, 7 Mar 90 10:14:43 PST
  4240. From: mendel (Mendel Rosenblum)
  4241. Subject: Re: Mint and Allspice glitches
  4242.  
  4243. >Allspice got the infamous "Level 15 interrupt" and entered the
  4244. >debugger.  I ended up just continuing it because the kernel image
  4245. >on rosemary was truncated.  I've fixed that.  We should fix the
  4246. >interrupt handler for level 15 interrupts.
  4247.  
  4248. The level 15 interrupt is used on the 4/280 to signal a problem in the
  4249. memory system. The two major causes are inconstancies between the
  4250. virtually address cache and the page tables and memory board problems.
  4251. There is no way of telling from the panic() message which one happened.
  4252. Currently, the memory boards are configured to report correctable ECC errors
  4253. as level 15 interrupts.  It could be allspice just hit a correctable ECC error.
  4254. With 128 megabytes of memory using 1 megabyte chips correctable errors 
  4255. are a real possibility.  Cache related errors are normally caused by Sprite
  4256. not flushing the cache before invalidating or changing a mapping.  Currently,
  4257. the level 15 interrupt handles trash some registers so continuing the kernel
  4258. may or may not work depending on which registers are alive at the time of the
  4259. trap..
  4260.  
  4261. Action items for this problem:
  4262.  
  4263. a) Figure out why allspice is getting these errors. Patch trap handlers to
  4264.    report causes of problem and not trash registers.
  4265.  
  4266. b) Patch sun4 to handle correctable ECC errors. 
  4267.     Simple: Configure memory boards to not report correctable errors.
  4268.     Fancy:  Catch, log, and continue correctable errors.
  4269.  
  4270.  
  4271.  
  4272. 1032.
  4273. Date: Wed, 07 Mar 90 11:01:37 PST
  4274. From: Fred Douglis <douglis>
  4275. Subject: procID.c running on allspice
  4276.  
  4277. i logged into allspice because its load was over 1.  i found an lpd in
  4278. a loop, which died when i kill -DEBUG'ed it, a sendmail in the
  4279. debugger, which didn't make much sense and which had source more
  4280. recent than executable, and this:
  4281.  
  4282.     nobody   a0e54  0.0  0.0    96    56 WAIT    0:00    procID.c
  4283.  
  4284. the parent of this process is inetd.  there is no entry for procID.c
  4285. in inetd.conf, implying that the kernel data structure for the
  4286. argument string got trashed.
  4287.  
  4288.  
  4289.  
  4290.  
  4291. 1033.
  4292. Date: Wed, 7 Mar 90 12:58:04 PST
  4293. From: mendel (Mendel Rosenblum)
  4294. Subject: fsync() broken
  4295.  
  4296. Fsync() on a large remote file doesn't push the file to disk.   The file is
  4297. written to the server's cache but not to disk. It appears that the 
  4298. file needs to be large enought so that it doesn't fit in the local cache.
  4299.  
  4300.  
  4301.  
  4302.  
  4303. 1034.
  4304. Date: Thu, 8 Mar 90 08:31:28 PST
  4305. From: brent (Brent Welch)
  4306. Subject: migration glitch on larceny
  4307.  
  4308. I left a kernel make running last night, and it was
  4309. hung up when I got in this morning. Sage had processes
  4310. on burble and larceny.  Burble was wedged enough that
  4311. I couldn't log in.  I ran the kernel debugger on burble, but the
  4312. interesting processes had goofy stacks, something like:
  4313.  
  4314. #0  panic (__builtin_va_alist=-166539552) (sysPrintf.c line 209)
  4315. #1  0xf611fea0 in sched_OnDeck ()
  4316. ERROR: invalid read address 0x8
  4317.  
  4318. During the debug session my pmake got one "Error code 16"
  4319. and my syslog reported a timeout on a <send signal> and <rmt notify>.
  4320. After that Sage didn't think it had processes on burble.
  4321.  
  4322. Currently there are still migrated processes on larceny that
  4323. were spawned by sage.  Larceny seems to be in better shape;
  4324. I'm logged in now and sending this mail.  I'll leave my
  4325. pmake hung here on sage, and why don't you take a look at
  4326. larceny when you get in.
  4327.  
  4328. I experienced a similar thing yesterday when I deliberately
  4329. partitioned sage while it was the master of a pmake.  It
  4330. had 6 migrated compiles, and they all hung after the partition.
  4331. The migration system did get a reboot callback (the file system did),
  4332. so there may need to be some improvement there.  I was
  4333. able to kill off the processes with "kill -KILL", but I seem
  4334. to remember that ^C and ^Z didn't have any affect.
  4335.  
  4336.  
  4337.  
  4338.  
  4339. 1035.
  4340. Date: Thu, 08 Mar 90 10:32:05 PST
  4341. From: Fred Douglis <douglis>
  4342. Subject: out of processes (or stacks) wedged system
  4343.  
  4344. I ran a script that generated a lot of processes, and then my machine
  4345. hung.  since kvetching was at the time the migd master, it was getting
  4346. lots of RPCs and those started timing out.  I think we've seen this before.
  4347. I kind of think this sort of 'sure thing' is a better bug to chase after
  4348. right now than the ds3100 register tester, so i'm going to try to put
  4349. in some controls to restrict user processes relative to total processes.
  4350. i'm also tempted to put in a count of the number of touched pages, if
  4351. that isn't there already, and let processes have large sparse address
  4352. spaces but do something with them if they start touching too many pages
  4353. and thrashing the swap area.  comments?
  4354.  
  4355.  
  4356.  
  4357.  
  4358. 1036.
  4359. Date: Thu, 08 Mar 90 11:44:31 PST
  4360. From: Fred Douglis <douglis>
  4361. Subject: pdev use counts not tracked
  4362.  
  4363. if a pdev is deleted, its inode is deleted even if there's a master
  4364. sitting around using the pdev.  this is because when line 1847 of
  4365. fsLocalLookup.c is hit, curHandlePtr->use.ref == 0.  this breaks migd
  4366. because it can result in many instances of the migration daemon
  4367. sitting around.  as a temporary fix, i think i can use a separate lock
  4368. file, but that's a kludge.
  4369.  
  4370.  
  4371.  
  4372.  
  4373.  
  4374. 1037.
  4375. Date: Thu, 8 Mar 90 12:12:07 PST
  4376. From: douglis (Fred Douglis)
  4377. Subject: recovery killed kvetching
  4378.  
  4379. right after recovery with anise, my machine died with a TLB  miss in 
  4380. kernel. this has happened at least twice before in the past week
  4381. or two, and in each case, the stack was trashed.
  4382.  
  4383.  
  4384.  
  4385. 1038.
  4386. Date: Fri, 09 Mar 90 11:32:43 PST
  4387. From: Fred Douglis <douglis>
  4388. Subject: sun4 debugger bug
  4389.  
  4390. performing "pid <pid>" where <pid> doesn't have a context causes the
  4391. kernel to panic, and also there's apparently no way to backtrace the
  4392. kernel stack of a process that doesn't have a context.  
  4393.  
  4394.  
  4395.  
  4396.  
  4397. 1039.
  4398. Date: Fri, 9 Mar 90 14:21:01 PST
  4399. From: brent (Brent Welch)
  4400. Subject: missing ' in alias kills csh
  4401.  
  4402. At least on the ds3100, csh goes into a horrible infinite loop
  4403. that expands its address space rapidly.  This is caused by an
  4404. alias that is missing a single quote.  This line from culler's
  4405. .cshrc repeatedly causes the problem:
  4406. alias xidraw 'rsh dill "~douglis/cmds.ds3100/idraw -d cardamom:0"
  4407. Simply sourcing a file with this line causes csh to go off the deep end.
  4408.  
  4409. Right now John H. is debugging hijack to see what this process is doing.
  4410. Off hand he suspects a longjump problem.
  4411.  
  4412.  
  4413.  
  4414. 1040.
  4415. Date: Sat, 10 Mar 90 13:01:20 PST
  4416. From: tve (Thorsten von Eicken)
  4417. Subject: RPC to organo hung, then ok
  4418.  
  4419. These days again, whenever I type msgs, I have to wait 10 sec, get a message
  4420. RPC to oregano is hung, then wait 20 sec, then get RPC ok, and then msgs
  4421. works.  Is that normal?
  4422.  
  4423.  
  4424.  
  4425.  
  4426. 1041.
  4427. Date: Sat, 10 Mar 90 14:14:49 PST
  4428. From: Fred Douglis <douglis>
  4429. Subject: piquante, one more time
  4430.  
  4431. yet another new (?) error for piquante: VmMach_PageValidate: Kern TLB
  4432. entry found. it was running my register tester at the time, but it
  4433. died on a migrated cc process.  i thought perhaps the error was
  4434. actually continuable, but when i tried continuing it from the debugger
  4435. it just locked up completely and wouldn't reenter the debugger.  i
  4436. wonder, are the errors we see on piquante always related to the
  4437. coprocessor?  if the cpu was swapped, was the coprocessor as well?  
  4438.  
  4439.  
  4440.  
  4441.  
  4442.  
  4443. 1042.
  4444. Date: Sat, 10 Mar 90 15:23:17 PST
  4445. From: Fred Douglis <douglis>
  4446. Subject: spritemon won't run, or link, on sun3
  4447.  
  4448. brent reported that he couldn't install spritemon for the sun3 because
  4449. it would get a segmentation fault.  i found that i could link it with
  4450. the installed "libXaw_g.a" but not libXaw.a, but i couldn't debug it
  4451. with just libXaw.a because it would die elsewhere.  strangely enough,
  4452. it would run fine the first time and die any subsequent times.
  4453.  
  4454. i finally wound up trying to link it with all the X debug libraries,
  4455. and at this point ld just returns an error status of 1 without any
  4456. error messages at all.
  4457.  
  4458. to repeat (on a sun4 or sun3):
  4459.  
  4460.     % cd /X11R3/src/cmds/spritemon
  4461.     % pmake sun3
  4462.  
  4463. the load broke when i started using libX11_g.a.  i wonder whether the
  4464. loader just can't handle so many large libraries or something?? 
  4465.  
  4466. by the way, thorsten, i moved the libraries to /tmp and deleted the
  4467. library source directories (leaving the compressed tar files).  we may
  4468. need to restore the sources them once i can debug spritemon again, but
  4469. in the meantime you have your space back.
  4470.  
  4471.  
  4472.  
  4473.  
  4474. 1043.
  4475. Date: Sat, 10 Mar 90 16:08:46 PST
  4476. From: Fred Douglis <douglis>
  4477. Subject: vm bug?
  4478.  
  4479. in addition to the problem brent just mentioned, i've noticed for a
  4480. couple of days that compiling on sun3s would sometimes get into a
  4481. state where pmake would just sit forever.  debugging it showed that
  4482. malloc was doing a Sync_SlowLock on its monitor lock.  seems like we
  4483. should have some check in LOCK_MONITOR for processes that aren't
  4484. sharing memory, or something, but in any case, there's no reason for
  4485. pmake to deadlock on the monitor lock.  i can't reproduce the bug in
  4486. the debugger, either.  
  4487.  
  4488.  
  4489.  
  4490.  
  4491. 1044.
  4492. Date: Sat, 10 Mar 90 17:59:03 PST
  4493. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  4494. Subject: ds3100 libc.a
  4495.  
  4496. I tried to install a new libc.a by installing the etc subdirectory,
  4497. then doing an "installquick" in /sprite/src/lib/c.  The resulting
  4498. directory had lots of stuff missing.  Right now the uninstalled
  4499. libc.a is significantly smaller than its predecessor.  Is someone
  4500. working in libc?  
  4501.  
  4502.  
  4503.  
  4504.  
  4505. 1045.
  4506. Date: Sun, 11 Mar 90 14:22:13 PST
  4507. From: mendel (Mendel Rosenblum)
  4508. Subject: serial line problems on sun4c
  4509.  
  4510. When the serial line falls out of the laserwritter in 477 the sparcstation 
  4511. driving it hangs until you type l1-A and continue it.   I believe that tve 
  4512. reported a similar bug trying to output to a terminal.   
  4513.  
  4514.  
  4515.  
  4516.  
  4517. 1046.
  4518. Date: Mon, 12 Mar 90 13:28:13 PST
  4519. From: Fred Douglis <douglis>
  4520. Subject: ds3100 lpd is old
  4521.  
  4522. any reason why the ds3100 lpd hasn't been reinstalled since last july?
  4523. it tried to invoke /sprite/cmds.sun3/pr.  looks like the source has
  4524. this fixed.
  4525.  
  4526.  
  4527.  
  4528. 1047.
  4529. Date: Mon, 12 Mar 90 15:41:06 PST
  4530. From: Fred Douglis <douglis>
  4531. Subject: recovery failed msg
  4532.  
  4533. fenugreek has on its console:
  4534.  
  4535.     oregano(38) - recovering handles
  4536.     oregano(38) Recovery failed: <4001b>
  4537.  
  4538. which is FS_FILE_REMOVED.  is this normal?  should the failure to
  4539. recover a particular file keep recovery from proceeding normally (and
  4540. printing "nnn handles nnn failed attempts")?  there was no subsequent
  4541. attempt to recover with oregano, but its's talking to oregano just
  4542. fine now so it must think it recovered.
  4543.  
  4544.  
  4545.  
  4546. 1048.
  4547. Date: Mon, 12 Mar 90 17:34:54 PST
  4548. From: ouster (John Ousterhout)
  4549. Subject: Hung pmake
  4550.  
  4551. After this afternoon's Oregano crash a Pmake was left hanging on
  4552. Piracy.  Here's the ps output:
  4553.  
  4554. piracy: ps
  4555. PID   STATE   TIME COMMAND
  4556. 2093e EXIT    0:00 sh -ev 
  4557. 90921 WAIT    0:02 pmake install debug 
  4558. e0927 EXIT    0:00 sh -ev 
  4559. 20939 EXIT    0:00 sh -ev 
  4560.   92a EXIT    0:00 sh -ev 
  4561. 80943 EXIT    0:00 sh -ev 
  4562. 70948 EXIT    0:00 sh -ev 
  4563. f0924 EXIT    0:00 sh -ev 
  4564. 7093a EXIT    0:00 sh -ev 
  4565. 9091b EXIT    0:00 sh -ev 
  4566. 50928 RWAIT   0:00 -csh 
  4567. 60911 WAIT    0:00 -csh 
  4568. e092b WAIT    0:00 -csh 
  4569. 3094b EXIT    0:00 sh -ev 
  4570. d0916 EXIT    0:00 cc -O -Dds3100 -Dsprite -Uultrix -I. -Ids3100.md ...
  4571.  
  4572. Fred, do you care to take a look or should I just try to kill the
  4573. processes?  Control-C didn't seem to have any effect.
  4574.  
  4575.  
  4576.  
  4577.  
  4578. 1049.
  4579. Date: Mon, 12 Mar 90 18:59:12 PST
  4580. From: dedood (Paul de Dood)
  4581. Subject: X
  4582.  
  4583. Once I kill my X windows, I am unable to re-start X, unless I boot.
  4584. The machine is burble.  It may have something to do with internet connections
  4585. I have open to other machines off campus when X is exited.
  4586.  
  4587.  
  4588.  
  4589.  
  4590.  
  4591. 1050.
  4592. Date: Mon, 12 Mar 90 21:33:25 PST
  4593. From: Fred Douglis <douglis>
  4594. Subject: recovery/migration bug
  4595.  
  4596. the mail i sent before addresses the situation where a file server
  4597. crashes and client migrations fail as a result.  it doesn't address a
  4598. situation where a network gets partitioned, and a machine with
  4599. exported processes doesn't get notifications that the processes have
  4600. exited from the remote machines.  so, it thinks the processes are
  4601. still running elsewhere.  there are a couple of potential ways to get
  4602. around this.  one is to have the home machine periodically ping the
  4603. remote machine to make sure it's still running the process.  another
  4604. is to have a mechanism in the recovery system to detect partitions and
  4605. indicate when they occur and go away.  when i asked before about
  4606. whether the host would get a reboot event, and was told yes, i think
  4607. there was some confusion.  i think the reboot event happens only if an
  4608. rpc was in progress to that host during the time of the partition, and
  4609. for migrations that isn't normally the case.  despite the fact that i
  4610. partitioned 477 from spurnet for long enough that it should have tried
  4611. to ping all the hosts i had registered recov interest in, i never saw
  4612. RPC timeout messages about hosts other than file servers.  
  4613.  
  4614.  
  4615.  
  4616.  
  4617. 1051.
  4618. Date: Tue, 13 Mar 90 10:20:41 PST
  4619. From: Fred Douglis <douglis>
  4620. Subject: xgoned
  4621.  
  4622. xgoned doesn't go away when the server shuts down.
  4623.  
  4624.  
  4625.  
  4626.  
  4627. 1052.
  4628. Date: Tue, 13 Mar 90 12:37:45 PST
  4629. From: pmchen@basil.Berkeley.EDU (Peter M. Chen)
  4630. Subject: kernel 1.060 on ds3100 (new)
  4631.  
  4632. I've had a hard time booting "new" on the ds3100's.  Mustard has crashed
  4633. twice on reboot now.  Both times it happened after the IPserver and inetd
  4634. started.  Fred repeated this on kvetching.  Perhaps the file rot extended
  4635. to the kernel image?
  4636.  
  4637.  
  4638.  
  4639.  
  4640. 1053.
  4641. Date: Tue, 13 Mar 90 13:13:49 PST
  4642. From: sequent!fubar@uunet.UU.NET
  4643. Subject: Minor nits in attcmds/ex/ex_io.c
  4644.  
  4645.     The switch in ex_io.c (around line 422) to check for edit
  4646. attempts of an executable could be a bit more portable if it were done
  4647. as shown below.  The Symmetry lacks an NMAGIC, but has an SMAGIC and
  4648. XMAGIC format.  Presumably everybody's got an OMAGIC, but it could be
  4649. #ifdef'ed as well.
  4650.  
  4651.  
  4652.                 switch ((int)head.a_magic) {
  4653.  
  4654.                 case 0405:      /* data overlay on exec */
  4655.                 case OMAGIC:    /* unshared */
  4656. #ifdef NMAGIC
  4657.                 case NMAGIC:    /* shared text */
  4658. #endif
  4659.                 case 0411:      /* separate I/D */
  4660. #ifdef ZMAGIC
  4661.                 case ZMAGIC:    /* VM/Unix demand paged */
  4662. #endif
  4663.                 case 0430:      /* PDP-11 Overlay shared */
  4664.                 case 0431:      /* PDP-11 Overlay sep I/D */
  4665. #ifdef SMAGIC
  4666.                 case SMAGIC:    /* Symmetry standalone executable */
  4667. #endif
  4668. #ifdef XMAGIC
  4669.                 case XMAGIC:    /* Dynix invalid at 0 executable */
  4670. #endif
  4671.                         error(" Executable");
  4672.  
  4673.  
  4674.  
  4675. 1054.
  4676. Date: Tue, 13 Mar 90 14:01:29 PST
  4677. From: shirriff@ginger.Berkeley.EDU (Ken Shirriff)
  4678. Subject: Maybe this will work.
  4679.  
  4680. The first two times I tried to send this, send-mail on the sun3 went
  4681. into the debugger with a useless stack trace.
  4682.  
  4683. Things seem to be bad on pride (ds3100) after mint's crash.
  4684. rn died on me and now gives segmentation violations if I try to run it.
  4685. I tried to investigate, but when I did a pushd, my window died with:
  4686. Application terminated with status 3.
  4687. A pmake I did died with:
  4688. Warning: remote migd operation timed out.
  4689.  
  4690. In my syslog I got:
  4691. Warning: VmFileServerRead: Error 5 from Fs_Read or Fs_PageRead
  4692. Bad user TLB fault in process 10617: pc=409570, addr=409570
  4693. Warning: Proc_RpcRemoteCall: invalid pid: c0628.
  4694. Warning: Proc_RpcRemoteCall: invalid pid: 60635.
  4695. Fs_PageRead: Read failed <5>
  4696. Warning: VmFileServerRead: Error 5 from Fs_Read or Fs_PageRead.
  4697. Bad user TLB fault in process e0628: pc=400170 addr=400170
  4698.  
  4699. I'll investigate some of these problems, but I wanted to send out the mail
  4700. before my window system crashes or something.
  4701.  
  4702.  
  4703.  
  4704.  
  4705. 1055.
  4706. Date: Tue, 13 Mar 90 14:53:45 PST
  4707. From: brent (Brent Welch)
  4708. Subject: mint crash
  4709.  
  4710. Mint crashed (before the recovery storm) in a strange way.
  4711. Inside the Fsconsist_IOClientClose procedure a stack
  4712. variable (flags) had the value of 1.  However, in all the
  4713. procedures above Fsconsist_IOClientClose this variable had
  4714. an altogether different value (the correct value).  This
  4715. implies, perhaps, that the register holding this variable
  4716. was corrupted.
  4717.     brent
  4718.  
  4719.  
  4720. 1056.
  4721. Date: Tue, 13 Mar 90 15:21:22 PST
  4722. From: Fred Douglis <douglis>
  4723. Subject: Re: kernel 1.060 on ds3100 (new) 
  4724.  
  4725. it was piquante that crashed, actually.  it died right after ipServer
  4726. was started, with a backtrace as follows:
  4727.  
  4728.    0 TLBHashInsert(pid = 0, page = 2148274148, lowReg = 6029824, hiReg = 268453952) ["ds3100.md/vmPmax.c":1735, 0x800bf864]
  4729.    1 .block572 ["ds3100.md/vmPmax.c":1188, 0x800beffc]
  4730.    2 VmMach_PageValidate(virtAddrPtr = 0xc086bf54, pte = 3252684224) ["ds3100.md/vmPmax.c":1188, 0x800beffc]
  4731.    3 VmPageValidateInt(virtAddrPtr = 0x80155360, ptePtr = 0x800c5490) ["vmPage.c":649, 0x800c3fbc]
  4732.    4 PreparePage(virtAddrPtr = 0xc086bf54, protFault = 0, curPTEPtr = 0xb0000004) ["vmPage.c":1692, 0x800c56b0]
  4733.    5 .block585 ["vmPage.c":1491, 0x800c5074]
  4734.    6 Vm_PageIn(virtAddr = 0x10004b48, protFault = 0) ["vmPage.c":1491, 0x800c5074]
  4735.    7 .block576 ["ds3100.md/vmPmax.c":1491, 0x800bf598]
  4736.    8 VmMach_TLBFault(virtAddr = 0x8017e7c4 = "\210O^O\200\344\337^W\200") ["ds3100.md/vmPmax.c":1491, 0x800bf598]
  4737.    9 MachUserExceptionHandler(statusReg = 64524, causeReg = 805306376, badVaddr = 0x10004b48, pc = 0x422668) ["ds3100.md/machCode.c":866, 0x80034330]
  4738.   10 Mach_UserGenException(0xffffffff, 0xffffffff, 0xffffffff, 0xffffffff, 0xffffffff) ["ds3100.md/machAsm.s":775, 0x80032e7c]
  4739.   11 Compat_MapCode(status = [bad address (0xc086c028)]) [0x422664]
  4740.  
  4741.  
  4742. the kernel i built last night runs just fine.  also, when i continued
  4743. piquante in order to reboot my kernel, it ran without a hitch!
  4744. strange.  btw, it's not bitrot -- i copied the unstripped kernel over
  4745. and stripped it, and it is identical to the copy we are booting from.
  4746.  
  4747.  
  4748.  
  4749.  
  4750. 1057.
  4751. Date: Tue, 13 Mar 90 19:10:53 PST
  4752. From: Fred Douglis <douglis>
  4753. Subject: treason has bad segment
  4754.  
  4755. cpp goes into the debugger consistently on treason.  i disabled
  4756. migration onto it so that things wouldn't get unexpected errors.  i'm
  4757. leaving shortly so i can't debug treason right now, but i'll try to
  4758. later if no one beats me to it.
  4759.  
  4760.  
  4761.  
  4762.  
  4763. 1058.
  4764. Date: Tue, 13 Mar 90 21:31:10 PST
  4765. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  4766. Subject: PCB table full!!
  4767.  
  4768. I just ran a script that did lots of stuff in the background.  I figured
  4769. the worst that could happen is that I would run out of processes.
  4770. Wrong!  If there are no more processes left and an Rpc_Server tries
  4771. to fork you end up in the debugger.  There must be a more elegant
  4772. solution.  Perhaps this doesn't need to be fixed right away, but
  4773. it certainly does if and when we make Sprite more robust.
  4774.  
  4775.  
  4776.  
  4777.  
  4778. 1059.
  4779. Date: Wed, 14 Mar 90 08:33:33 PST
  4780. From: bmiller (Bob Miller)
  4781. Subject: 'entering debugger' msgs
  4782.  
  4783. I don't know if anyone else has been having these problems, but I've
  4784. gotten the 'entering debugger' message on a regular basis lately.  Is
  4785. this related to software or hardware?  Here are some of the messages
  4786. (I haven't kept track of all of them - there have been 5 or 6 of them over
  4787. the past 3 days and more last week)...
  4788.  
  4789. entering debugger with a TLB LD miss exception at PC 0x800b24b4
  4790. entering debugger with a TLB store address error exception at PC 0x8008621c
  4791.    "         "      "  "  "    "      "      "       "      "  "      "
  4792.  
  4793.  
  4794.  
  4795.  
  4796. 1060.
  4797. Date: Wed, 14 Mar 90 13:59:27 PST
  4798. From: brent (Brent Welch)
  4799. Subject: inetd looping
  4800.  
  4801. I caught the inetd on allspice in an infinite loop.
  4802. I think its problem concerns my recent change to select.
  4803. Its select call was returning that a particular socket
  4804. was readable.  However, when it did a recvfrom() on the
  4805. socket it got a ESTALE return code.  It doesn't close
  4806. the socket in response to this error (I could patch it
  4807. to do this) and so the next select again returns that
  4808. this stream is readable.  This particular socket is used
  4809. with requests for the time, and it apparently keeps it open.
  4810.  
  4811. The main problem is that select just doens't work well
  4812. with bad I/O streams...
  4813.  
  4814.  
  4815.  
  4816.  
  4817. 1061.
  4818. Date: Wed, 14 Mar 90 16:44:14 PST
  4819. From: elm (ethan miller)
  4820. Subject: rsh to rosemary
  4821.  
  4822. It doesn't seem to work.  I don't know whether this is a Sprite problem
  4823. or a rosemary problem, though.  I get a message like this when I try it:
  4824. rosemary.Berkeley.EDU: address already in use
  4825.  
  4826. I'm trying to run an xterm remotely on rosemary (since there is no xterm
  4827. on Sprite), but I get the same message when I try a remote ls.
  4828.  
  4829.  
  4830.  
  4831.  
  4832.  
  4833. 1062.
  4834. Date: Thu, 15 Mar 90 10:31:42 PST
  4835. From: mendel (Mendel Rosenblum)
  4836. Subject: ds3100 as goes infinite on / 0
  4837.  
  4838. If you try to compile the following program on ds3100 Sprite the assembler 
  4839. goes into a inifinite loop:
  4840.  
  4841. main() { int s; return s / 0; }
  4842.  
  4843. The "/ 0" produces the message "as1: Warning: t2.c, line 1: Division by zero"
  4844. and loops inifinitely.  
  4845.  
  4846.  
  4847.  
  4848.  
  4849. 1063.
  4850. Date: Fri, 16 Mar 90 11:44:17 PST
  4851. From: culler (David Culler)
  4852. Subject: Update on Allegro lisp
  4853.  
  4854. The patched Allegro lisp mostly runs on sprite and I have been able to
  4855. adjust the pathnames so it can find library files and the like.  It
  4856. handles ascii files correctly, but encounters an error in closing
  4857. binary files.  I have not located a source for this, although I can
  4858. isolate and disassemble the particular functions.  Aside from the
  4859. error in closing, binary files seem to be read correctly.
  4860.  
  4861.  
  4862.  
  4863.  
  4864. 1064.
  4865. Date: Fri, 16 Mar 90 14:29:17 PST
  4866. From: Fred Douglis <douglis>
  4867. Subject: fmt.h/machTypeMips.c
  4868.  
  4869. i keep seeing complaints of the form:
  4870.  
  4871. /sprite/lib/include/fmt.h:56: warning: FMT_MY_FORMAT redefined
  4872.  
  4873. compiling (on a sun) machTypeMips.c.  that's because ds3100 is defined too.
  4874.  
  4875.  
  4876.  
  4877.  
  4878. 1065.
  4879. Date: Fri, 16 Mar 90 15:44:13 PST
  4880. From: Fred Douglis <douglis>
  4881. Subject: sun4c migration bug?
  4882.  
  4883. i've been seeing some random error code 16's on sun4c's today.  i
  4884. can't look into it too carefully just yet, but wanted to make sure
  4885. people were alert to the possibility (and to repeatable test cases).
  4886. this was particularly nasty because i was doing an install of proc,
  4887. and after removing and reinstalling the sources in Installed/proc 3
  4888. times, it removed them and failed to install them.  (i'd be much happier
  4889. if only files that didn't match current sources were removed, since
  4890. this would also avoid any synchronization problems due to installing
  4891. multiple machine types at once.)
  4892.  
  4893. Fred
  4894.  
  4895.  
  4896.  
  4897.  
  4898. 1066.
  4899. Date: Sat, 17 Mar 90 18:35:05 PST
  4900. From: tve (Thorsten von Eicken)
  4901. Subject: MIPS compiler bug
  4902.  
  4903. I have two octtools programs which bomb if I compile them with -O on a ds3100,
  4904. but which run fine on other machines and without -O on ds3100s.  For one of
  4905. them I checked the assembly output with -O and there obviously was a bug.
  4906. In two identical loops (identical source, char by char, one loop after the
  4907. other) the second one had two instructions swapped which made it loop
  4908. indefinitely. I haven't checked the output for the second program. Do we
  4909. have an old compiler binary? The same programs seem to compile fine on
  4910. DECstations over in cory (I haven't checked which compiler they use).
  4911.     Thorsten
  4912. NB: this is just for information...
  4913.  
  4914.  
  4915.  
  4916. 1067.
  4917. Date: Sun, 18 Mar 90 16:26:36 PST
  4918. From: tve (Thorsten von Eicken)
  4919. Subject: ds3100 goes into debugger reliably running dbx
  4920.  
  4921. I have a program in ~casotto/dmtest which opens an X connection to
  4922. a decstation over in cory.  The XOpenDisplay call hangs in the select
  4923. system call for no obvious reason. I do a "kill -DEBUG" while it's hanging
  4924. to have a look at it with "dbx -attach ... ./dmtest", type "run" and
  4925. "where" to verify it's in select, and the type "c", and voila: gluttony
  4926. is no more. I don't know what the console say, but John can probably tell
  4927. you :-), I tried it twice and both times it died. To reproduce on another
  4928. ds3100, it requires an xhost on the remote decstation in cory. 2 notes:
  4929. the program is an ultrix binary and the program works perfectly fine when
  4930. trying to open a connection to another sprite machine. Mysterious...
  4931.  
  4932.  
  4933.  
  4934.  
  4935. 1068.
  4936. Date: Sun, 18 Mar 90 16:36:59 PST
  4937. From: Fred Douglis <douglis>
  4938. Subject: monitor blackout
  4939.  
  4940. this was sent just to me, but i don't think it's clearly something
  4941. relating only to my own kernel:
  4942.  
  4943. >>>>> On Sun, 18 Mar 90 15:54:07 PST, eklee@sprite.Berkeley.EDU (Edward K. Lee) said:
  4944.  
  4945. Ed> I was running fred 1.115 when my monitor blanked and I could not get it
  4946. Ed> to unblank (hitting keys would cause various parts of the screen to flash
  4947. Ed> briefly but it would not stay unblanked).
  4948.  
  4949.  
  4950. Ed - what were you doing at the time it blanked?  were you 30 seconds
  4951. idle (meaning something could have migrated onto you) or were the only
  4952. active processes your own?  were you running your simulator?  also,
  4953. what did you do at this point?  did you happen to try the l1 key that
  4954. is supposed to enable the display?
  4955.  
  4956. Fred
  4957.  
  4958.  
  4959.  
  4960. 1069.
  4961. Date: Sun, 18 Mar 90 19:03:38 PST
  4962. From: eklee (Edward K. Lee)
  4963. Subject: sassafras hung with swap error
  4964.  
  4965. When I ran 'nm -g /sprite/src/kernel/eklee/sun4 > t' on sassafras, it hung
  4966. with messages of the type:
  4967. Warning: VmOpenSwapFile: Could not open swap file /swap/29/51, reason 0x1
  4968. printed to its console.
  4969. It didn't crash but would not respond to pings.
  4970. I tried to repeat it without success.
  4971.  
  4972.  
  4973.  
  4974.  
  4975. 1070.
  4976. Date: Sun, 18 Mar 90 22:51:41 PST
  4977. From: shirriff (Ken Shirriff)
  4978. Subject: /swap1 confused
  4979.  
  4980. % ls /swap1
  4981. /swap1/28 not found
  4982. /swap1/29 not found
  4983. /swap1/3 not found
  4984. /swap1/30 not found
  4985. 1/        22/        39/        56/        70/
  4986. ...etc...
  4987. Why are these not found?  Is the file system messed up?
  4988.  
  4989.  
  4990.  
  4991.  
  4992. 1071.
  4993. Date: Mon, 19 Mar 90 01:34:10 PST
  4994. From: eklee (Edward K. Lee)
  4995. Subject: select I/O error
  4996.  
  4997. I was running pmake on sassafras when it hung (would not respond to pings).
  4998. I'll leave it in this state for a while in case someone wants to look at it.
  4999.  
  5000. Ed
  5001. ---
  5002. On the console were messages of the form:
  5003. Fs_Dispatch select error: I/O error
  5004. <28>Mar 19 00:51:00 inetd[71d0d]: select: I/O error
  5005. <28>    ...              select: I/O error
  5006. <28>    ...              select: I/O error
  5007. <28>    ...              select: I/O error
  5008. <28>    ...              select: I/O error
  5009. <28>    ...              select: I/O error
  5010. <28>    ...              select: I/O error
  5011. <27>Mar 19 00:51:32 inetd[71d0d]: Exiting: Too many select errors
  5012.   ^---[sic]
  5013.  
  5014.  
  5015.  
  5016. 1072.
  5017. Date: Mon, 19 Mar 90 11:06:54 PST
  5018. From: shirriff (Ken Shirriff)
  5019. Subject: Re: monitor blackout
  5020.  
  5021. The same sort of blanking just happened to me.  The screen was blanked with
  5022. the screensaver when I came in, so I hit a key.  Part of the screen
  5023. unblanked and then the whole screen blanked again.  (It looked like the
  5024. screen was unblank long enough to redraw about 20% of the screen and then
  5025. went blank.)  I hit a bunch more keys, and the screen would flash on and
  5026. off.  Finally it unblanked and stayed.  It was like I had to fight
  5027. with the screensaver for control.  This was with ds3100 kernel 1.061.
  5028.  
  5029.  
  5030.  
  5031.  
  5032.  
  5033. 1073.
  5034. Date: Mon, 19 Mar 90 12:54:22 PST
  5035. From: Fred Douglis <douglis>
  5036. Subject: Re: pmake hangs on sun3 
  5037.  
  5038.     Pmake hangs on sun3. It works if invoked as "pmake -X".
  5039.  
  5040. [this was on fenugreek, as reported by mendel.]
  5041.  
  5042. it didn't work with -X for me either.  i'm pretty sure this is the
  5043. bogus VM segment bug we discussed at last week's meeting.  pmake
  5044. doesn't get very far at all because its first malloc blocks on the
  5045. monitor lock.  ("pmake -d m" should print stuff when it goes to stat
  5046. files, and it doesn't print anything at all so it's not getting far
  5047. enough to be doing migration or much of anything else.)
  5048.  
  5049. i tried debugging it.  first allspice hung left and right, and then
  5050. just when i was debugging it using kgdb, the problem cleared up on its
  5051. own. this could be related to it going through recovery with allspice;
  5052. who knows?  we'll just have to keep watching for machines (esp. sun3s,
  5053. it seems) getting into this state.  
  5054.  
  5055.  
  5056.  
  5057.  
  5058. 1074.
  5059. Date: Mon, 19 Mar 90 17:18:16 PST
  5060. From: brent (Brent Welch)
  5061. Subject: junky file descriptor
  5062.  
  5063. Allspice was having trouble with some directories in /swap1 today.
  5064. On a hunch I tried flushing its cache (fscmd -f) and voila,
  5065. the problems cleared up.  This implies that there was a bad
  5066. cache block, one that didn't really have file descriptors in it.
  5067. yuck.
  5068.  
  5069.  
  5070.  
  5071. 1075.
  5072. Date: Tue, 20 Mar 90 17:03:19 PST
  5073. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  5074. Subject: mx redraw bug
  5075.  
  5076. If I use the "Forms" menu to copy a form into an mx window then
  5077. the window is not redrawn correctly.  The menu obscures the top of
  5078. the window, but when the form is added the obscured area is scrolled
  5079. downwards.  It appears that mx then redraws the top of the window
  5080. instead of the correct area.  The result is a square white box
  5081. where the menu used to be.
  5082.  
  5083. To reproduce the bug run mx on a new file, then select the "local.mk"
  5084. option of the "Forms" menu.
  5085.  
  5086.  
  5087.  
  5088.  
  5089. 1076.
  5090. Date: Tue, 20 Mar 90 17:48:14 PST
  5091. From: Fred Douglis <douglis>
  5092. Subject: piracy impossible bus error
  5093.  
  5094. piracy was in the debugger.  just for the hell of it, i ran kdbx on
  5095. it, and i found that it reported a bus error in an assignment
  5096. statement:
  5097.  
  5098.     Bus error [.block185:1093 ,0x8005f050]
  5099.         fs_Stats.blockCache.numFreeBlocks--;
  5100.  
  5101. the assembler instruction at %pc was at the starred instruction in:
  5102.  
  5103.   [Fscache_FetchBlock:1088, 0x8005f04c]     nop
  5104. >*[Fscache_FetchBlock:1093, 0x8005f050]     lui    r24,0x8013
  5105.   [Fscache_FetchBlock:1093, 0x8005f054]     lw    r24,9508(r24)
  5106.  
  5107. seems pretty bizarre.  sounds like a hardware error rather than a bad
  5108. address.  
  5109.  
  5110. on the ds3100 front, we still don't have piquante running ultrix.  the
  5111. vaxenfixen have been working on it now for about a week.  they started
  5112. playing w/ dill last wednesday; did little on thursday or friday to
  5113. try to get piquante going because i guess they lacked some sort of
  5114. install tape; and finally started actively trying to boot piquante
  5115. sometime yesterday or this morning.  no luck so far.  must be a great
  5116. advertisement for sprite, how easily we can add a new diskless
  5117. machine, huh?
  5118.  
  5119.  
  5120.  
  5121.  
  5122. 1077.
  5123. Date: Tue, 20 Mar 90 22:46:35 PST
  5124. From: Fred Douglis <douglis>
  5125. Subject: reboot doesn't close file, reclaim space?
  5126.  
  5127. ken had a process on nutmeg in a tight loop writing data to a file in
  5128. /user1.  removing the file didn't free up the space since the file was
  5129. open.  nutmeg then rebooted, and the space still didn't free up.  this
  5130. seems odd.  is it expected behavior?  it looks like we may have to
  5131. reboot allspice to get the file in lost+found where it can be deleted.
  5132. since it's huge, and /user1 is full, this may happen tonight. 
  5133.  
  5134.  
  5135.  
  5136.  
  5137. 1078.
  5138. Date: Wed, 21 Mar 90 11:38:16 PST
  5139. From: Fred Douglis <douglis>
  5140. Subject: non-idempotent pdev recovery
  5141.  
  5142. after a crash, i don't expect pseudo-devices to recover the way normal
  5143. files do.  after a network partition, though, there's no reason
  5144. whatsoever for pdevs to get nuked because of failed recovery.  this is
  5145. because there's really no reason to do recovery on them at all.  i've
  5146. had some trouble with my ethernet connection on kvetching today, and
  5147. each time i lost my connection, my remote emacs and spritemon windows
  5148. died.  
  5149.  
  5150.  
  5151.  
  5152.  
  5153. 1078.
  5154. Date: Wed, 21 Mar 90 17:10:47 PST
  5155. From: mendel (Mendel Rosenblum)
  5156. Subject: cc1.sparc bug
  5157.  
  5158. Cc1.sparc goes into the debugger when faced with the following program:
  5159.  
  5160. foo(collapse)
  5161.     char collapse;    
  5162. {
  5163.     char* bp;
  5164.  
  5165.    ((*bp = '%') != collapse);
  5166. }
  5167.  
  5168. This fragment is from the Xt library.
  5169.  
  5170.  
  5171.  
  5172.  
  5173. 1079.
  5174. Date: Thu, 22 Mar 90 18:43:20 PST
  5175. From: Fred Douglis <douglis>
  5176. Subject: rdist symlink bug fixed, but stat needs fix too
  5177.  
  5178. ever notice how rdist wouldn't update symbolic links because it would
  5179. complain 'file changed size'?  well, i got fed up with seeing that
  5180. (and fed up with writing for the moment :) so i looked into rdist.  i
  5181. found where it checks the length -- using both readlink and stat and
  5182. getting different lengths even on the local host.  readlink is fixed
  5183. to return the unix-equivalent length of a symbolic link, but stat
  5184. counts the null byte.  would programs break if stat were changed to
  5185. make the same check for name length?  
  5186.  
  5187. in the meantime, rdist fixes the count itself, and it works much
  5188. better now.  
  5189.  
  5190.  
  5191.  
  5192.  
  5193. 1080.
  5194. Date: Fri, 23 Mar 90 11:49:52 PST
  5195. From: Fred Douglis <douglis>
  5196. Subject: mint's arpd died....
  5197.  
  5198. ... so hosts that didn't already have entries for sprite hosts
  5199. couldn't talk to us.  i couldn't rlogin to mint, perhaps for that
  5200. reason, but i was able to start arpd on fenugreek and things are much
  5201. better now.  
  5202.  
  5203.  
  5204.  
  5205.  
  5206. 1081.
  5207. Date: Sat, 24 Mar 90 10:05:06 PST
  5208. From: root (The Sprite God)
  5209. Subject: csh on Allspice
  5210.  
  5211. There is a csh process on Allspice that is looping in Sig_SetHoldMask.
  5212. I've suspended the process so that a signal expert can take a look.
  5213. PID 0x0e3e
  5214.  
  5215.  
  5216.  
  5217.  
  5218. 1082.
  5219. Date: Sun, 25 Mar 90 17:55:27 PST
  5220. From: mendel (Mendel Rosenblum)
  5221. Subject: tar goes into debugger.
  5222.  
  5223. Tar goes into the debugger on sun4 (and probably other machines) if it input
  5224. stream doesn't exists.  For example:
  5225.  
  5226. jaywalk% notfound | tar xf -
  5227. notfound: Command not found.
  5228. Assertion failed: (head) line 50 of "list.c"
  5229.  
  5230. Debug
  5231. [5] 71216 d1223
  5232.  
  5233.  
  5234.  
  5235.  
  5236. 1083.
  5237. Date: Tue, 27 Mar 90 13:13:36 PST
  5238. From: Fred Douglis <douglis>
  5239. Subject: oregano ipServer & other processes vanished
  5240.  
  5241. oregano acted strangely this morning.  i noticed that "rup" showed it
  5242. was down, so I ran "f =ps@oregano" and that worked, showing no migd
  5243. running.  But an rsh onto oregano just hung, and then pinging oregano
  5244. stopped working.  Migrating onto oregano worked and I was able to find
  5245. that the ipServer was totally gone.  Since the "fixIPServer" script
  5246. only checked for the ipServer in the debugger, it didn't restart it.
  5247. I just changed the script to see if the process exists at all, and the
  5248. mail at 13:10 from oregano (and fenugreek) is due to this change.  
  5249.  
  5250.  
  5251.  
  5252.  
  5253. 1084.
  5254. Date: Thu, 29 Mar 90 11:22:25 PST
  5255. From: brent (Brent Welch)
  5256. Subject: distribution
  5257.  
  5258. I've just spent over an hour on the phone with the guy at DEC.
  5259.  
  5260. We patched /sprite/src/lib/c/net/gethostnamadr.c, the gethostbyname()
  5261. procedure to always fall back to the "/etc/hosts" file if
  5262. the name server doesn't respond.
  5263.  
  5264. We had to manually update /sprite/lib/ds3100.md/libc.a
  5265. because a make in /sprite/src/lib/c failed.  The disk sub-directory
  5266. is out-of-date, probably because of the recent changes made there.
  5267. He still has "diskUtils.h", for example (which doesn't compile),
  5268. while our source tree has a "disk.h".
  5269.  
  5270. Typing "make install" in the /sprite/src/daemons directory failed
  5271. for a number of reasons.  Mainly there are not ds3100.md directories
  5272. everywhere, plus there are some missing man pages.
  5273.  
  5274. /boot/bootcmds was modifies so that the
  5275. if (%MACHINE == ds3100) then
  5276.     sethostname `hostname`
  5277.     sethostids
  5278. endif
  5279.  
  5280. sequence was moved way up, before everything.  The sethostname program
  5281. has to be run before any socket() calls are made.  The kernel-version
  5282. of the compatibility library depends on a variable, machHostName,
  5283. which is only set by this call.
  5284.  
  5285. That's all I can think of.  So, while we can perhaps make a kernel
  5286. from the distribution, we cannot make the library or all the
  5287. deamons and commands.
  5288.  
  5289.  
  5290.  
  5291.  
  5292. 1085.
  5293. Date: Thu, 29 Mar 90 11:57:04 PST
  5294. From: mgbaker (Mary Gray Baker)
  5295. Subject: killed vi freezes shell
  5296.  
  5297. I did a kill -KILL of a vi process, and my csh froze in that window.
  5298.  
  5299.  
  5300.  
  5301.  
  5302. 1086.
  5303. Date: Fri, 30 Mar 90 15:50:59 PST
  5304. From: pmchen (Peter M. Chen)
  5305. Subject: from my syslog
  5306.  
  5307. (this was from mustard--ds3100)
  5308.  
  5309. PdevWrite: signal 14
  5310. PdevWrite: signal 14
  5311.  
  5312. Any ideas what this means?
  5313.  
  5314.  
  5315.  
  5316.  
  5317. 1087.
  5318. Date: Fri, 30 Mar 90 16:38:00 PST
  5319. From: Fred Douglis <douglis>
  5320. Subject: mint not accepting rdates
  5321.  
  5322. finger & such worked, but rdate got refused.  killing and restarting
  5323. inetd did the trick.  perhaps we should run inetd with debugging info
  5324. enabled so we can see what it's thinking about when it goes off the
  5325. deep end?
  5326.  
  5327.  
  5328.  
  5329.  
  5330. 1088.
  5331. Date: Fri, 30 Mar 90 17:21:51 PST
  5332. From: root (The Sprite God)
  5333. Subject: rawstat in debugger on nutmeg
  5334.  
  5335. Does anyone know why nutmeg had a whole pile of:
  5336. root     a036d  0.0  0.0   160     0 DEBUG   0:00    rawstat -all 
  5337. root     2036e  0.0  0.5    72    40 WAIT    0:00    sh -c /c/stats/RAW
  5338. processes, using up all the available processes?
  5339.  
  5340.  
  5341.  
  5342.  
  5343. 1089.
  5344. Date: Mon, 2 Apr 90 08:39:45 PDT
  5345. From: ouster (John Ousterhout)
  5346. Subject: More mice
  5347.  
  5348. It makes perfect sense that this would happen the day that Brent
  5349. starts at PARC....
  5350.  
  5351. A bunch of file corruptions were detected by my checksum program last
  5352. night, after a couple weeks without problems.  The corrupted files are
  5353. listed at the end of this message.  When I examined the files, some of
  5354. them didn't appear to be corrupted after all, but some definitely did.
  5355. Some of the corrupting material seems to be from the workshop position
  5356. paper that Mary is preparing.  I notice that Allspice was rebooted just
  5357. before midnight last night... Mary, were you working on the report at
  5358. the time of the reboot?  Does anyone know anything about the circumstances
  5359. of the reboot?  Was it an ugly crash?
  5360.  
  5361. Here's the checksum output:
  5362.  
  5363. Checksum started at Mon Apr  2 04:35:18 PDT 1990
  5364. Running on allspice.Berkeley.EDU
  5365. ./jhh/proj/user/lockstat.begin corrupted:  id 11045 mtime 26140af9 old 627d2b47 new a31ef466
  5366. ./jhh/proj/user/sysstat.begin corrupted:  id 11049 mtime 26140afd old ec68620c new a0f6a69c
  5367. ./jhh/proj/user/lockstat.end corrupted:  id 11050 mtime 26140955 old 837b32c4 new ee1e9809
  5368. ./ouster/tmp/a.out corrupted:  id 556 mtime 26150fa7 old 0 new ce90cfef
  5369. ./jhh/proj/user/sysstat.end corrupted:  id 11051 mtime 26140959 old 5c2425a5 new 703fbe8e
  5370. ./shirriff/.newsrc1 corrupted:  id 44990 mtime 2615045e old 827d6365 new 19355015
  5371. ./shirriff/.plan corrupted:  id 10163 mtime 2614ff8d old a7c84178 new 39feb394
  5372. 7 errors found
  5373. Checksum completed at Mon Apr  2 05:11:15 PDT 1990
  5374.  
  5375.  
  5376.  
  5377. 1090.
  5378. Date: Mon, 2 Apr 90 17:21:03 PDT
  5379. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  5380. Subject: junk file bug
  5381.  
  5382.  
  5383. I spoke briefly with Brent about the file inconsistency bug.  When
  5384. a file is closed the attributes, including size, are pushed back
  5385. to the file server.  If there are cache blocks to back up the file,
  5386. then their (garbage) contents will be provided to the next open.
  5387. The file size is used to determine how much of the cache  blocks
  5388. are garbage.  In this case the size is incorrect.
  5389.  
  5390. We aren't certain why there are cache blocks allocated to the file
  5391. if the file was just created.  There may be a bug here somewhere.
  5392.  
  5393. Brent agreed that incrementing the version number if the consistency
  5394. callback fails sounds like a good idea.  He is concerned that the
  5395. real bug is that we don't handle attributes correctly. Perhaps they
  5396. shouldn't be pushed to the file server until all the blocks of the
  5397. file have been.
  5398.  
  5399.  
  5400.  
  5401.  
  5402. 1091.
  5403. Date: Wed, 4 Apr 90 15:18:31 PDT
  5404. From: shirriff (Ken Shirriff)
  5405. Subject: ds3100 pc messed up in 1.061
  5406.  
  5407. Forgery crashed with an illegal instruction error.  It was running 1.061
  5408. kernel.  The stack trace and pc seem to be messed up:
  5409.    0 Net_EtherAddrToString.Net_EtherAddrToString(0x1, 0xffffffff, 0x80072a7c, 0xc0261808, 0x1000e2d8) [0x8e800070]
  5410.    1 Mach_TestAndSet(0x1, 0xffffffff, 0x80072a7c, 0xc0261808, 0x1000e2d8) ["ds3100.md/machAsm.s":1064, 0x80033100]
  5411.    2 Compat_MapCode(status = 0) [0x1001b]
  5412.    3 Compat_MapCode(status = -1667522559) [0x1001b]
  5413.    4 Compat_MapCode(status = 63) [0x1000e2d4]
  5414.    5 Compat_MapCode(status = 268493528) []
  5415.  
  5416. The pc is pointing into the text segment, not the code segment.
  5417.  
  5418.  
  5419.  
  5420.  
  5421. 1092.
  5422. Date: Wed, 04 Apr 90 17:25:17 PDT
  5423. From: Fred Douglis <douglis>
  5424. Subject: new account setup
  5425.  
  5426. i think something must be broken with the program that sets up new
  5427. accounts, or not all fields are being filled in properly.  when i
  5428. fingered the two students [bsmith, tockey] i'm supposed to 'shepherd',
  5429. to see if they're ever using sprite, they not only didn't have
  5430. .project files (i mentioned this before but didn't hear anything from
  5431. anyone) but they also didn't have mail set up to be forwarded
  5432. anywhere.  mail to sprite-users may collect in their mailboxes on
  5433. sprite without being read in a timely fashion.
  5434.  
  5435.  
  5436.  
  5437.  
  5438. 1093.
  5439. Date: Thu, 5 Apr 90 00:03:02 PDT
  5440. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  5441. Subject: allspice debugging report
  5442.  
  5443. I was unable to determine the cause of the dma bus errors.  I
  5444. rebooted allspice 4 times and got the bus errors on three of them.
  5445. Each time the controller wasn't active.  It did not have a scsi
  5446. command in progress and the dma was off.  I don't know what to make
  5447. of this.
  5448.  
  5449. Right now allspice is running my kernel.  It is made of all installed
  5450. modules except for dev.  Please reboot it with the .new kernel if
  5451. it crashes.
  5452.  
  5453.  
  5454.  
  5455.  
  5456. 1094.
  5457. Date: Fri, 06 Apr 90 09:27:00 PDT
  5458. From: rab (Robert A. Bruce)
  5459. Subject: allspice crash
  5460.  
  5461. Allspice crashed.
  5462.  
  5463. Fatal Error: Fscache_OkToScavange: NILL on dirty list (continuable)
  5464.  
  5465. It kept trying to continue, but would just reenter the debugger
  5466. with the same error over and over.  When I tried to debug it,
  5467. it kept popping out of the debugger.
  5468.  
  5469.  
  5470.  
  5471.  
  5472.  
  5473. 1095.
  5474. Date: Fri, 6 Apr 90 16:06:30 EDT
  5475. From: douglis@piquante.berkeley.edu (Fred Douglis)
  5476. Subject: recovery failure
  5477.  
  5478. kvetching hung during recovery with allspice, when allspice was totally wedged up
  5479. witha huge swap file from heresy.  as everyone else was recoverying kvetching froze
  5480. completely.  an li-y dump showed "want recovery reboot callbacks failure srv-inprogress"
  5481. or something like that.  
  5482.  
  5483.  
  5484.  
  5485.  
  5486. 1096.
  5487. Date: Fri, 06 Apr 90 14:25:15 PDT
  5488. From: rab (Robert A. Bruce)
  5489. Subject: mint crash
  5490.  
  5491. Mint crashed.  It was running 1.061, I rebooted it with 1.062.
  5492.  
  5493. Fatal Error: Fscache_OkToScavenge: FSCACHE_FILE_BEING_WRITTEN (continuable)
  5494.  
  5495. #0  panic (_va_args=235020820) (sysPrintf.c line 209)
  5496. #1  0xe0223a4 in FscacheBlockOkToScavenge (cacheInfoPtr=(struct Fscache_FileInfo *) 0xe3f8f90) (fsBlockCache.c line 3013)
  5497. #2  0xe022fa0 in Fscache_OkToScavenge (cacheInfoPtr=(struct Fscache_FileInfo *) 0xe3f8f90) (fsCacheOps.c line 432)
  5498. #3  0xe0284f2 in Fsio_FileScavenge (hdrPtr=(struct Fs_HandleHeader *) 0xe3f8f50) (fsFile.c line 791)
  5499. #4  0xe039a00 in Fsutil_HandleInstall (fileIDPtr=(struct Fs_FileID *) 0xe8b7eb8, size=68, name=(char *) 0xe68a5e8 "passwd", hdrPtrPtr=(struct Fs_HandleHeader **) 0xe8b7eb4) (fsHandle.c line 310)
  5500. #5  0xe02ab9a in Fsio_StreamCreate (serverID=32, clientID=66, ioHandlePtr=(struct Fs_HandleHeader *) 0xe424a80, useFlags=36865, name=(char *) 0xe68a5e8 "passwd") (fsStream.c line 108)
  5501. #6  0xe027d40 in Fsio_FileNameOpen (handlePtr=(struct Fsio_FileIOHandle *) 0xe424a80, openArgsPtr=(struct Fs_OpenArgs *) 0xe3e3398, openResultsPtr=(struct Fs_OpenResults *) 0xe2d182c) (fsFile.c line 308)
  5502. #7  0xe02bdbe in FslclOpen (prefixHandlePtr=(struct Fs_HandleHeader *) 0xe11f984, relativeName=(char *) 0xe3e3798 "etc/passwd", argsPtr=(char *) 0xe3e3398 "", resultsPtr=(char *) 0xe2d182c "", newNameInfoPtrPtr=(struct Fs_RedirectInfo **) 0xe8b7f7c) (fsLocalDomain.c line 178)
  5503. #8  0xe03757e in Fsrmt_RpcOpen (srvToken=(ClientData) 0xe3e2838, clientID=66, command=7, storagePtr=(struct Rpc_Storage *) 0xe8b7fc4) (fsSpriteDomain.c line 386)
  5504. ---Type <return> to continue--- 
  5505. #9  0xe05cc58 in Rpc_Server () (rpcServer.c line 199)
  5506. #10 0xe05fa48 in Sched_StartKernProc (func=(void (*)()) 0xe05ca28) (schedule.c line 944)
  5507. (gdb) print *cacheInfoPtr 
  5508. %1 = {links = {prevPtr = 0xe0819b0, nextPtr = 0xe1498b0}, dirtyList = {prevPtr = 0xe3f8f98, nextPtr = 0xe3f8f98}, blockList = {prevPtr = 0xe3f8fa0, nextPtr = 0xe3f8fa0}, indList = {prevPtr = 0xe3f8fa8, nextPtr = 0xe3f8fa8}, lock = {inUse = -2147483648, waiting = 0, name = 0xe01fa2a "Fs:perFileCacheLock", holderPC = 0xe0819c0 "\016\b\031\300\016\b\031\300\016\b\031\310\016\b\031\310\016\r\336\374\016\016\320p", holderPCBPtr = 0xe30bcf8 "\016\t\264\270\016\t\264\270"}, flags = 0, version = 2, hdrPtr = 0xe3f8f50, blocksInCache = 0, blocksWritten = 0, numDirtyBlocks = 0, noDirtyBlocks = {waiting = 0}, lastTimeTried = 0, attr = {firstByte = 0, lastByte = 9215, accessTime = 639428963, modifyTime = 639428782, createTime = 555793808, userType = 5, permissions = 511, uid = 0, gid = 155}, ioProcsPtr = 0xe076de8}
  5509.  
  5510.         -bob
  5511.  
  5512.  
  5513.  
  5514. 1097.
  5515. Date: Fri, 06 Apr 90 14:57:08 PDT
  5516. From: Fred Douglis <douglis>
  5517. Subject: hosts still not invoking recovery automatically
  5518.  
  5519. a whole bunch of hosts are listed as "down", all from when mint
  5520. crashed. mint was running the global migd at the time.  taking treason
  5521. as an example, "f =ps@treason" got a response showing the host was up,
  5522. but the ps never produced anything.  then when i logged in, things
  5523. went back to normal, including la showing treason as up again.  a
  5524. glance at the syslog showed that mint rebooted at 14:10 but recovery
  5525. didn't start until i logged in at 14:48!  i think the same held true
  5526. of tyranny earlier when mendel logged into it to  check it out.  
  5527.  
  5528.  
  5529.  
  5530.  
  5531. 1098.
  5532. Date: Fri, 6 Apr 90 17:14:13 PDT
  5533. From: elm (ethan miller)
  5534. Subject: compiler bug dealing with 64-bit integers
  5535.  
  5536. There is a compiler bug dealing with multiplying and/or dividing
  5537. 64-bit integers.  There is an unexplained sign changed (and perhaps
  5538. more) when this is done.  Sample code fragment follows:
  5539.  
  5540. inline int64
  5541. rtc_to_us (rtc_val)
  5542. int64 rtc_val;
  5543. {
  5544.     return ((rtc_val * (int64)5998) / (int64) 1000000);
  5545. }
  5546.  
  5547. When I called this procedure with a number which is in the 100s of
  5548. thousands, I get a negative result.  Clearly, this isn't because
  5549. of overflow, since 1000000 * 5998 should still fit into a 64-bit
  5550. integer.  When I converted the int64s to doubles and did the
  5551. calculations, I got the correct results.
  5552.  
  5553. The compiler in question is the sun4 compiler,
  5554. which I have been running on my SparcStation (terrorism).
  5555.  
  5556.  
  5557.  
  5558.  
  5559. 1099.
  5560. Date: 6 Apr 90 12:04:11 PDT (Friday)
  5561. From: "Brent_B._Welch.PARC"@Xerox.COM
  5562. Subject: Re: allspice crash
  5563.  
  5564. Fatal Error: Fscache_OkToScavange: NILL on dirty list (continuable)
  5565. This panic occurs when the background scavenging checks the dirty
  5566. list and finds NIL pointers in it.  The fact that it doesn't repair
  5567. anything
  5568. means that, indeed, it will panic every time it scavenges a handle.
  5569. This means the panic is not continuable, obviously.
  5570. NIL pointers result from a handle being removed and reused while it
  5571. is still on the dirty list.  The two places where a handle is removed is
  5572. by the scavenger and when a file is deleted.  I had hoped that the
  5573. addition of Fscache_Delete in 1.062 had fixed the problems.
  5574. Apparently there is still a race in which a dirty file that is being
  5575. deleted can get stuck back on the dirty list.  There is a check in
  5576. PutFileOnDirtyList against FSCACHE_FILE_GONE, which is set
  5577. while a file is being deleted, but apparently this isn't good enough.
  5578.  
  5579.  
  5580.  
  5581.  
  5582.  
  5583. 1100.
  5584. Date: Sat, 7 Apr 90 21:13:37 PDT
  5585. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  5586. Subject: lost print jobs
  5587.  
  5588. If you queue a job while the machine connected to the printer
  5589. is down the job will be lost when the machine reboots.
  5590.  
  5591.  
  5592.  
  5593.  
  5594. 1101.
  5595. Date: Sun, 8 Apr 90 11:08:06 PDT
  5596. From: ouster (John Ousterhout)
  5597. Subject: Another mouse
  5598.  
  5599. The checksum program found a corruption in
  5600. /sprite/doc/ref.ancient/cmds/RCS/labeldisk,v on Friday morning.
  5601. It looks like it inherited a piece of thorsten's mail file.
  5602.  
  5603.  
  5604.  
  5605.  
  5606. 1102.
  5607. Date: Sun, 8 Apr 90 13:46:36 PDT
  5608. From: ouster (John Ousterhout)
  5609. Subject: Uptime and loadavg
  5610.  
  5611. There was no "uptime" command in /sprite/cmds.sun4.  I noticed that
  5612. it's just a symbolic link to "loadavg" for other machines, so I
  5613. created a corresponding link in /sprite/cmds.sun4.  However, it
  5614. seems to me that there should be an entry in the local.mk file
  5615. in /sprite/src/cmds/loadavg to do this automatically.  It looks
  5616. like the loadavg program is still in a state of flux so I didn't
  5617. go ahead and add the entry.  Fred, can you take care of this?
  5618.  
  5619.  
  5620.  
  5621.  
  5622. 1103.
  5623. Date: Mon, 09 Apr 90 08:24:14 PDT
  5624. From: rab (Robert A. Bruce)
  5625. Subject: violence
  5626.  
  5627. When Bob Miller came in this morning violence had error messages
  5628. scrolling accross the screen several times a second.  Each message
  5629. said:
  5630.  
  5631. cause=10002814  SR=25c00000  excPC=85046fe8 SP=8522b875  BVA=8f253271
  5632.  
  5633. He has had a lot of trouble with violence lately, so we replaced it
  5634. with subversion.  Violence is now in 608-4.
  5635.  
  5636.  
  5637.  
  5638.  
  5639. 1104.
  5640. Date: Mon, 9 Apr 90 19:57:07 PDT
  5641. From: mgbaker (Mary Gray Baker)
  5642. Subject: trashed mail
  5643.  
  5644. Is this explained by things we know already?  I had a double-message
  5645. that combined mendel's spring cleaning list and a message from Kathryn
  5646. Crabtree.  The first time I read these messages, they were separate.  When
  5647. I just read them, they were combined.
  5648.  
  5649.  
  5650.  
  5651.  
  5652. 1105.
  5653. Date: Tue, 10 Apr 90 15:29:43 PDT
  5654. From: Fred Douglis <douglis>
  5655. Subject: mint not serving rdate
  5656.  
  5657. "rdate mint" gets connection refused.  wonder if this has something to
  5658. do with the fact that many machines invoked recovery w/ mint at 4am,
  5659. which is when all the machines run rdate against mint.  
  5660.  
  5661. last time this happened, killing & restarting inetd fixed the problem.
  5662. this means that debugging inetd would probably be useful.  i'm going
  5663. to pass, but if anyone else is interested, it's there.  if no one
  5664. indicates by tonight that they plan to look into it, i'll restart it
  5665. late tonight.
  5666.  
  5667.  
  5668.  
  5669.  
  5670. 1106.
  5671. Date: Tue, 10 Apr 90 17:02:55 PDT
  5672. From: sequent!fubar@uunet.uu.net
  5673. Subject: Awk null pointer problems
  5674.  
  5675.     In /sprite/src/attcmds/awk/awk.def, the macros "isstr()",
  5676. "isfld()" and "isrec()" need to be changed; the provided versions will
  5677. attempt to dereference null pointers (n.optr).  A context diff is
  5678. appended.
  5679.  
  5680. *** attcmds.old/awk/awk.def     Mon Jul 11 09:57:08 1988
  5681. --- attcmds/awk/awk.def Tue Apr 10 16:49:20 1990
  5682. ***************
  5683. *** 123,133 ****
  5684.   #define       isbreak(n)      (n.otype == OJUMP && n.osub == JBREAK)
  5685.   #define       iscont(n)       (n.otype == OJUMP && n.osub == JCONT)
  5686.   #define       isnext(n)       (n.otype == OJUMP && n.osub == JNEXT)
  5687. ! #define isstr(n)      (n.optr->tval & STR)
  5688.   #define istrue(n)     (n.otype == OBOOL && n.osub == BTRUE)
  5689.   #define istemp(n)     (n.otype == OCELL && n.osub == CTEMP)
  5690. ! #define isfld(n)      (!donefld && n.osub==CFLD && n.otype==OCELL && n.optr->n
  5691. val==EMPTY)
  5692. ! #define isrec(n)      (donefld && n.osub==CFLD && n.otype==OCELL && n.optr->nv
  5693. al!=EMPTY)
  5694.   obj   nullproc();
  5695.   obj   relop();
  5696.  
  5697. --- 123,135 ----
  5698.   #define       isbreak(n)      (n.otype == OJUMP && n.osub == JBREAK)
  5699.   #define       iscont(n)       (n.otype == OJUMP && n.osub == JCONT)
  5700.   #define       isnext(n)       (n.otype == OJUMP && n.osub == JNEXT)
  5701. ! #define isstr(n)      (n.optr != NULL && n.optr->tval & STR)
  5702.   #define istrue(n)     (n.otype == OBOOL && n.osub == BTRUE)
  5703.   #define istemp(n)     (n.otype == OCELL && n.osub == CTEMP)
  5704. ! #define isfld(n)      (!donefld && n.osub==CFLD && n.otype==OCELL && \
  5705. ! n.optr != NULL && n.optr->nval==EMPTY)
  5706. ! #define isrec(n)      (donefld && n.osub==CFLD && n.otype==OCELL && \
  5707. ! n.opt != NULL && n.optr->nval!=EMPTY)
  5708.   obj   nullproc();
  5709.   obj   relop();
  5710.  
  5711.  
  5712.  
  5713.  
  5714.  
  5715. 1107.
  5716. Date: Wed, 11 Apr 90 18:05:13 PDT
  5717. From: pmchen (Peter M. Chen)
  5718. Subject: unable to rlogin
  5719.  
  5720. I was not able to rlogin from envy or coriander to any sprite machines.
  5721. (This was 5 minutes ago).  Now I'm able to.  Weird.
  5722.  
  5723. Symptoms were: I tried "rsh mustard" and got hung (had to ~. to get
  5724. out).  I also tried rsh allspice, assault, and oregano with no
  5725. better luck.  I was able to ping and finger, though.
  5726.  
  5727. When I tried rsh allspice -l root, I got the "Password:" prompt,
  5728. but nothing after that.
  5729.  
  5730.  
  5731.  
  5732.  
  5733. 1108.
  5734. Date: Thu, 12 Apr 90 00:40:29 PDT
  5735. From: lowery (Carlyn M. Lowery)
  5736. Subject: Minor Comment on Some Documentation
  5737.  
  5738. This is not a bug, but a misleading bit of documentation.  In 
  5739. /sprite/src/kernel/rpc/rpcPacket.h, the following description is given:
  5740.  
  5741. RPC_CLOSE only valid on type RPC_ACK messages.  This means the client
  5742. has successfully gotten its last reply and is ending the sequence of RPCs
  5743. with the server.
  5744.  
  5745. It should say:
  5746.  
  5747. RPC_CLOSE only valid on type RPC_ACK messages.  This means the server
  5748. is requesting acknowledgement of its last reply so it can reassign
  5749. the server process to an active client channel.  When combined
  5750. with RPC_SERVER, this means the client has successfully gotten its last
  5751. reply.
  5752.  
  5753. I reached this conclusion after examining the code.  If I've misunderstood,
  5754. please let me know.
  5755.  
  5756.  
  5757.  
  5758.  
  5759. 1109.
  5760. Date: Thu, 12 Apr 90 08:31:55 PDT
  5761. From: ouster (John Ousterhout)
  5762. Subject: Corrupted file
  5763.  
  5764. The checksum program detected a corruption in the file
  5765. /sprite/users/hilfingr/mp/enbsigfifo.o.  Bob, can you restore
  5766. this file from tape so Hilfinger never knows he was hit?
  5767.  
  5768.                     -John-
  5769.  
  5770.  
  5771. 1110.
  5772. Date: Thu, 12 Apr 90 17:04:48 PDT
  5773. From: rab (Robert A. Bruce)
  5774. Subject: allspice crash
  5775.  
  5776. Allspice crashed.  It was running 1.063.
  5777.  
  5778. Fatal Error: Fscache_DeleteFile failed
  5779.  
  5780. #1  0xf603bd58 in Fscache_DeleteFile (cacheInfoPtr=(struct Fscache_FileInfo *) 0xf71dbb00) (fsCacheOps.c line 1372)
  5781. #2  0xf6043024 in Fsio_FileTrunc (handlePtr=(struct Fsio_FileIOHandle *) 0xf71dbac0, size=0, flags=2) (fsFile.c line 1711)
  5782. #3  0xf6049580 in Fslcl_DeleteFileDesc (handlePtr=(struct Fsio_FileIOHandle *) 0xf71dbac0) (fsLocalLookup.c line 1919)
  5783. #4  0xf6041b74 in Fsio_FileCloseInt (handlePtr=(struct Fsio_FileIOHandle *) 0xf71dbac0, ref=0, write=0, exec=0, clientID=14, callback=1) (fsFile.c line 663)
  5784.  
  5785. (gdb) print *cacheInfoPtr
  5786. %1 = {links = {prevPtr = 0xf60cab70, nextPtr = 0xf6d3acf0}, dirtyList = {prevPtr= 0xf71dbb08, nextPtr = 0xf71dbb08}, blockList = {prevPtr = 0xf71dbb10, nextPtr= 0xf71dbb10}, indList = {prevPtr = 0xf71dbb18, nextPtr = 0xf71dbb18}, lock = {inUse = -16777216, waiting = 0, name = 0xf6035c52 "Fs:perFileCacheLock", holderPC = 0xf6092668 "\177\375\350\032\001", holderPCBPtr = 0xf69f67b8 "\366*\261\220\366*\261\220"}, flags = 2176, version = 1157, hdrPtr = 0xf71dbac0, blocksInCache= 0, blocksWritten = 0, numDirtyBlocks = 0, noDirtyBlocks = {waiting = 0}, lastTimeTried = 0, attr = {firstByte = -1, lastByte = -1, accessTime = 639957866, modifyTime = 639957881, createTime = 639949106, userType = 5, permissions = 416, uid = 0, gid = 0}, ioProcsPtr = 0xf60bd3a8}
  5787.  
  5788.  
  5789.  
  5790.  
  5791. 1111.
  5792. Date: Thu, 12 Apr 90 17:28:39 PDT
  5793. From: Fred Douglis <douglis>
  5794. Subject: bug in ftp fixed: /dev/tty problem
  5795.  
  5796. thank you for reporting this bug.
  5797.  
  5798. the problem with ftp was that ftp tries to open /dev/tty and uses
  5799. stdin only if it doesn't get tty.  normally tty doesn't exist, but ken
  5800. managed to create it:
  5801.  
  5802.     [kvetching 17:16]/user2/douglis (8)% ls -l /dev/tty
  5803.     -rw-rw-r--  1 shirriff        6 Apr  9 21:39 /dev/tty
  5804.  
  5805. i removed it and now ftp works again.
  5806.  
  5807. i now realize this has happened before.  unfortunately, if it was in
  5808. the log, it was in the old sprite log, so i didn't turn it up when i
  5809. tried to see if we had a record of it.  hopefully this will serve next
  5810. time. 
  5811.  
  5812. a better fix, of course, would be to support /dev/tty!  someday...
  5813.  
  5814.  
  5815.  
  5816.  
  5817. 1112.
  5818. Date: 12 Apr 90 17:39:24 PDT (Thursday)
  5819. From: "Brent_B._Welch.PARC"@Xerox.COM
  5820. Subject: Re: allspice crash
  5821.  
  5822. If Fscache_DeleteFile fails it means (I think - no Sprite access right
  5823. now)
  5824. that the file is on the dirty list.  The flags value in Bob's message
  5825. is 2176, which (I think...) is 
  5826. FSCACHE_FILE_GONE | FSCACHE_FILE_ON_DIRTY_LIST
  5827. It may be possible to recover from this case by simply removing
  5828. the file from the dirty list.  As I've said before, PutFileOnDirtyList
  5829. checks against FSCACHE_FILE_GONE.  Also, CacheFileInvalidate,
  5830. which is called to during a deletion and sets FSCACHE_FILE_GONE,
  5831. is supposed to "do the right thing" with files on the dirty list.
  5832.  
  5833.     Brent Welch
  5834.  
  5835.  
  5836. 1113.
  5837. Date: Thu, 12 Apr 90 18:15:33 PDT
  5838. From: mgbaker (Mary Gray Baker)
  5839. Subject: second allspice crash
  5840.  
  5841. The second crash on allspice was due to a panic in Fsutil_HandleReleaseHdr
  5842. on a file that a client thought it had locked but that allspice didn't think
  5843. it had locked.  My guess is that this could somehow have been a result of the
  5844. first crash on allspice.  Other info: the reference count on the file was 2.
  5845. It's name was "erwin".  Crackle was opening it on allspice.  The request
  5846. header showed the server hint from crackle as being host number 19 (ponca),
  5847. which has been out of commission for a while.  But crackle has been up for a
  5848. while, so if it hasn't been heavily used, it could still have a channel with
  5849. an old server hint in it.  How many days ago did ponca cease to exist?
  5850. Crackle has been up for about 3 days.
  5851.  
  5852.  
  5853.  
  5854.  
  5855. 1114.
  5856. Date: Thu, 12 Apr 90 18:19:55 PDT
  5857. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  5858. Subject: SPRITE_OS variable
  5859.  
  5860. If I login to a machine the environment variable SPRITE_OS is set
  5861. to "yes".  If I rlogin to a machine it is not set to anything.
  5862.  
  5863.  
  5864.  
  5865. 1115.
  5866. Date: Fri, 13 Apr 90 08:33:42 PDT
  5867. From: ouster (John Ousterhout)
  5868. Subject: More corruption
  5869.  
  5870. The file /sprite/users/david/sequent/patpg/sun3.md/md.mk was
  5871. corrupted sometime yesterday.  The intruding data is as follows:
  5872.  
  5873.     t def Metrics begin
  5874.     /.notdef 0 def
  5875.     /space 500 def
  5876.     /ru 500 def
  5877.     /br 0 def 
  5878.     /lt 416 def
  5879.     /lb 416 def
  5880.     /rt 416 def
  5881.     /rb 416 def
  5882.     /lk 416 def
  5883.     /rk 416 def
  5884.     /rc 416 def
  5885.     /lc 416 def
  5886.     /rf 416 def
  5887.     /lf 416 def
  5888.     /bv 416 def
  5889.     /o
  5890.  
  5891. This smells like Postscript to me.  I can't help but think it's no
  5892. coincidence that recent file corruptions have happened on the same
  5893. days that Allspice crashed.  Hmmm, I see that Mint rebooted yesterday
  5894. too.
  5895.  
  5896.  
  5897.  
  5898. 1116.
  5899. Date: Fri, 13 Apr 90 10:21:43 PDT
  5900. From: tve (Thorsten von Eicken)
  5901. Subject: Re: second allspice crash
  5902.  
  5903. Some addtional info: I was working in a dir which got deleted (rm -rf) from
  5904. another client (burble).
  5905.  
  5906.  
  5907.  
  5908. 1117.
  5909. Date: Fri, 13 Apr 90 11:30:01 PDT
  5910. From: tve (Thorsten von Eicken)
  5911. Subject: chksum on /mic detects three corruptions!
  5912.  
  5913. Return-Path: daemon
  5914. Received: by sprite.Berkeley.EDU (5.59/1.29)
  5915.     id AA200284; Fri, 13 Apr 90 11:14:40 PDT
  5916. Date: Fri, 13 Apr 90 11:14:40 PDT
  5917. From: root (The Sprite God)
  5918. Message-Id: <9004131814.AA200284@sprite.Berkeley.EDU>
  5919. To: tve
  5920. Subject: Checksum run for /mic
  5921.  
  5922. Checksum started at Fri Apr 13 10:23:58 PDT 1990
  5923. Running on allspice.Berkeley.EDU
  5924. ./guest/casotto/projects/vov/develop/trace/vovlib.h corrupted:  id 148410 mtime 260812b6 old d3f5becf new 16d0e096
  5925. ./octtools/src/lib/ace/RCS/apGenerate.c,v corrupted:  id 116693 mtime 25b121d5 old 7721ed2d new 21c65c8e
  5926. ./bric/doc/.std.dvips.external corrupted:  id 113955 mtime 26052883 old a4028bcb new e16d8748
  5927. 3 errors found
  5928. Checksum completed at Fri Apr 13 11:14:36 PDT 1990
  5929.  
  5930. I haven't looked at them yet...
  5931.  
  5932.  
  5933.  
  5934. 1118.
  5935. Date: Fri, 13 Apr 90 11:36:23 PDT
  5936. From: Fred Douglis <douglis>
  5937. Subject: Re: chksum on /mic detects three corruptions! 
  5938.  
  5939. out of curiosity, i looked at /hosts/allspice/rsd02c.fsc to see if it
  5940. mentioned these files.  it didn't, but it mentioned a lot of other problems:
  5941.  
  5942. rsd02c: Thu Apr 12 16:51:25 1990
  5943. rsd02c: "/mic"
  5944. rsd02c: Indirect block 522120 of file 134326 contains garbage index 33686468
  5945. rsd02c: Found error in file descriptor bitmap
  5946. rsd02c: File octtools/src/cmds/bolt/erwin/ds3100.md/dependencies.mk.bak~ references non-allocated descriptor 44806. File Deleted.
  5947. rsd02c: Entry dependencies.mk.bak~ (4) now has nameLength 20, recordLength 428, fileNumber 0.
  5948. rsd02c: File octtools/src/cmds/bolt/paul/tighten.c references non-allocated descriptor 60061. File Deleted.
  5949. rsd02c: Entry tighten.c (6) now has nameLength 9, recordLength 20, fileNumber 0.
  5950. rsd02c: Bad record length in directory.  Directory entry deleted from octtools/src/cmds/bolt/paul/RCS/
  5951. rsd02c: . missing in directory 49632 octtools/src/cmds/bolt/paul/RCS/.  Changed to a file.
  5952. rsd02c: File . references non-allocated descriptor 49793. File Deleted.
  5953. rsd02c: Entry . (0) now has nameLength 1, recordLength 12, fileNumber 0.
  5954. rsd02c: . missing in directory 50317 .  Changed to a file.
  5955. rsd02c: File . references non-allocated descriptor 49792. File Deleted.
  5956. rsd02c: Entry . (0) now has nameLength 1, recordLength 12, fileNumber 0.
  5957. rsd02c: . missing in directory 105808 .  Changed to a file.
  5958. rsd02c: File . references non-allocated descriptor 889. File Deleted.
  5959. rsd02c: Entry . (0) now has nameLength 1, recordLength 12, fileNumber 0.
  5960. rsd02c: . missing in directory 113584 .  Changed to a file.
  5961. rsd02c: File . references non-allocated descriptor 888. File Deleted.
  5962. rsd02c: Entry . (0) now has nameLength 1, recordLength 12, fileNumber 0.
  5963. rsd02c: . missing in directory 113585 .  Changed to a file.
  5964. rsd02c: Bad record length in directory.  Directory entry deleted from 
  5965. rsd02c: . missing in directory 113586 .  Changed to a file.
  5966. rsd02c: 26 unreferenced files
  5967. rsd02c: 5 links counts corrected
  5968. rsd02c: Found error in data block bitmap
  5969. rsd02c: 42695 files, 540746 blocks in use, 84934 blocks free, 36392 fragments
  5970.  
  5971.  
  5972.  
  5973. 1119.
  5974. Date: Fri, 13 Apr 90 13:55:09 PDT
  5975. From: culler (David Culler)
  5976. Subject: problems with rdist
  5977.  
  5978. When I run rdist from mammoth to update files on sprite, I find
  5979. some strange behavior.  Rdist discovers the files as out-of-date
  5980. on sprite and claims to update it.  However, no change occurs on
  5981. the sprite side.  If I run rdist again on mammoth, it things everything
  5982. on sprite is up to date.
  5983.  
  5984.  
  5985.  
  5986.  
  5987. 1120.
  5988. Date: Fri, 13 Apr 90 14:01:45 PDT
  5989. From: pmchen (Peter M. Chen)
  5990. Subject: unable to read files
  5991.  
  5992. For a short time, I was unable to read files in my home directory.
  5993. The error message on my syslog was:
  5994. Warning: VmFileServerRead: Error 5 from Fs_Read or Fs_PageRead
  5995. Bad user TLB fault in process 32c41: pc=41bf84 addr=10003a80
  5996. Fs_PageRead: Read failed <5>
  5997. Warning: VmFileServerRead: Error 5 from Fs_Read or Fs_PageRead
  5998. Bad user TLB fault in process 22c2b: pc=416f7c addr=10003d80
  5999. Fs_PageRead: Read failed <5>
  6000. Warning: VmFileServerRead: Error 5 from Fs_Read or Fs_PageRead
  6001. Bad user TLB fault in process c2c0f: pc=404328 addr=100014a4
  6002.  
  6003. Windows are also dying on me left and right.  If you want to look
  6004. at the machine, CALL ME within 5 minutes, otherwise, I'll reboot the
  6005. darn thing.
  6006.  
  6007. This was on mustard, a ds3100.
  6008.  
  6009.  
  6010.  
  6011.  
  6012. 1121.
  6013. Date: 13 Apr 90 09:20:09 PDT (Friday)
  6014. From: "Brent_B._Welch.PARC"@Xerox.COM
  6015. Subject: Re: second allspice crash
  6016.  
  6017. Fsutil_HandleReleaseHdr et. al. only deal with local locking.
  6018. I'm not sure what is meant by "a client had locked".  A
  6019. handle may have been locked during a service call on
  6020. Allspice itself, and then (apparently) unlocked an extra
  6021. time.  Second, the "server hint" is a port number, not a
  6022. hostID.  At any rate, an errant RPC by a client should not
  6023. cause a locking error in Fsutil_Handle*.  These routines are
  6024. for local manipulation of handles, and each RPC should be
  6025. self-consistent - no RPC leaves a handle locked after completion
  6026. and therefore no RPC is responsible for unlocking a handle
  6027. that was locked by a different RPC.
  6028.  
  6029. In the past this unlocking error has occured after a continued
  6030. panic.  There is some error case that unlocks a handle early,
  6031. and then when the panic is continued the handle gets
  6032. unlocked a second time.
  6033.  
  6034.  
  6035.  
  6036.  
  6037. 1122.
  6038. Date: Fri, 13 Apr 90 15:26:49 PDT
  6039. From: tve (Thorsten von Eicken)
  6040. Subject: spritemon -v% must be wrong on sun4
  6041.  
  6042. on crackle which has 16 Megs of main memory:
  6043. spritemon -vM shows >16M (almost 17)
  6044. spritemon -v% shows about 50%
  6045. spritemopn -fM shows about 1Meg devoted to the fs cache
  6046. Mhh, someone must have added memory to my machine....
  6047.  
  6048.  
  6049.  
  6050. 1123.
  6051. Date: Fri, 13 Apr 90 17:16:47 PDT
  6052. From: elm (ethan miller)
  6053. Subject: sun4c kernel problem on joyride
  6054.  
  6055. The following message is printed in an infinite loop.  This started
  6056. to happen soon after allspice recovered today (Fri 13 Apr about 4PM).
  6057.  
  6058. Entering debugger with an Interrupt Trap (16) exception at PC 0xf608e6a8
  6059. Fatal Error: Deadlock!!!(Proc:serverMutex @ f6130f88)
  6060. Holder PC: 0xf60760f4 Current PC: 0xf6076094
  6061. Holder PCB @ 0xffffffff Current PCB @ 0xffffffff
  6062.  
  6063. After talking to Fred, I decided to reboot the machine.
  6064.  
  6065.  
  6066.  
  6067.  
  6068. 1124.
  6069. Date: Fri, 13 Apr 90 17:41:54 PDT
  6070. From: shirriff (Ken Shirriff)
  6071. Subject: Latest allspice crash
  6072.  
  6073. Allspice went into the debugger with:
  6074. Fscache_OkToScavenge: FSCACHE_FILE_BEING_WRITTEN (continuable)
  6075. I couldn't figure out what was going on and I continued it.
  6076.  
  6077.  
  6078.  
  6079. 1125.
  6080. Date: Fri, 13 Apr 90 18:21:21 PDT
  6081. From: shirriff (Ken Shirriff)
  6082. Subject: Allspice crash.
  6083.  
  6084. Allspice crashed shortly after my previous message, presumably because
  6085. the continue didn't work.
  6086. It died with:
  6087. Fscache_DeleteFile failed "151" blocks 0 flags 880
  6088. Entering debugger
  6089. Sprite is now detached from the debugger
  6090. FsGetDirtyFile skipping deleted file <1,33785> "no name"
  6091. [a bunch more FsGetDirtyFile messages ]
  6092. MachHandleWeirdoInstruction: unaligned address trap in the kernel
  6093. procPtr = f62ca100, pc=f605d500
  6094.  
  6095. The stack trace was
  6096. MachReturnFromTrap()
  6097. Sync_GetLock()
  6098. GetDirtyFile()
  6099.  
  6100. It died in:
  6101. List_Remove((List_Links *)cacheInfoPtr); in GetDirtyFile.
  6102.  
  6103. I don't know what cacheInfoPtr is because I didn't realize that's
  6104. where it died until it came back up and I could check the source.
  6105.  
  6106.  
  6107.  
  6108.  
  6109. 1126.
  6110. Date: Sat, 14 Apr 90 09:58:20 PDT
  6111. From: ouster (John Ousterhout)
  6112. Subject: More corruption
  6113.  
  6114. The file /sprite/users/david/sequent/patpg/sun3.md/md.mk was
  6115. corrupted yesterday.  Its tail now consists of information from
  6116. a Mx log file.  Has there been a change of kernels in the last
  6117. few days? I'm surprised that we're suddenly seeing a jump in file
  6118. corruptions.
  6119.  
  6120.  
  6121.  
  6122. 1127.
  6123. Date: Sat, 14 Apr 90 14:25:57 PDT
  6124. From: douglis (Fred Douglis)
  6125. Subject: plumbing problem
  6126.  
  6127. allspice hung up for a very long time, long enough to make us think it
  6128. wasn't just a question of the disk getting backed up.  however, it
  6129. appears it cleared up on its own just as i was setting up to debug it, and
  6130. i just didn't realize it in time.  when i backtraced all the relevant
  6131. processes, i found them all waiting on disk activity 
  6132. (Dev_BlockDeviceIOSync).  i also managed to make allspice panic as i
  6133. backtraced one process, for no apparent reason, so i had to reboot
  6134. rather than continue.  
  6135.  
  6136.  
  6137.  
  6138.  
  6139. 1128.
  6140. Date: Mon, 16 Apr 90 11:10:49 PDT
  6141. From: Fred Douglis <douglis>
  6142. Subject: ipServer dying on ds3100
  6143.  
  6144. my ipServer has died twice in the past 3 days.  i wasn't able to
  6145. determine its state the first time (i wasn't here when it happened),
  6146. but this time i saw a message about a reserved instruction and dbx
  6147. showed an empty stack with the PC in hyperspace.  
  6148.  
  6149. apologies for the "ipServer on kvetching died and was restarted"
  6150. message.  it's from the fixIPServer script.  i'll change the script to
  6151. do it only if given an argument, which crontab for the servers can do.
  6152.  
  6153.  
  6154.  
  6155.  
  6156. 1129.
  6157. Date: 16 Apr 90 09:46:34 PDT (Monday)
  6158. From: "Brent_B._Welch.PARC"@Xerox.COM
  6159. Subject: Re: Latest allspice crash
  6160.  
  6161. A file goes through two states on its way to disk.
  6162. FSCACHE_FILE_ON_DIRTY_LIST is the first state,
  6163. and FSCACHE_FILE_BEING_WRITTEN is the second.
  6164. The scavenge procedure found a file in the second state.
  6165. I think this is ok, actually, and the scavenger should just
  6166. skip over the file.  I'd change Fscache_OkToScavenge so that
  6167.  
  6168.     ok = (numBlocks == 0) &&
  6169.         ((cacheInfoPtr->flags & FSCACHE_FILE_ON_DIRTY_LIST) == 0);
  6170.  
  6171. is updated to be:
  6172.  
  6173.     ok = (numBlocks == 0) &&
  6174.         ((cacheInfoPtr->flags & FSCACHE_FILE_ON_DIRTY_LIST) == 0) &&
  6175.            ((cacheInfoPtr->flags & FSCACHE_FILE_BEING_WRITTEN) == 0);
  6176.  
  6177. And then nuke the panic that follows.
  6178.  
  6179.  
  6180.  
  6181.  
  6182. 1130.
  6183. Date: 16 Apr 90 09:49:54 PDT (Monday)
  6184. From: "Brent_B._Welch.PARC"@Xerox.COM
  6185. Subject: Re: Allspice crash.
  6186.  
  6187. Ah ha.  So Allspice dies anyway, even if you skip over a file that is
  6188. FSCACHE_FILE_BEING_WRITEN.  Someone needs to figure out how
  6189. files go from BEING_WRITTEN to be back on the FILE_ON_DIRTY_LIST
  6190. and fix the case where the FSCACHE_FILE_GONE flag is set
  6191. (i.e, the file is deleted).
  6192.  
  6193.  
  6194.  
  6195.  
  6196. 1131.
  6197. Date: Mon, 16 Apr 90 15:24:19 PDT
  6198. From: pmchen (Peter M. Chen)
  6199. Subject: /user3
  6200.  
  6201. I can't ls /user3, except when I'm in /user3.
  6202.  
  6203. mustard% cd 
  6204. mustard% pwd
  6205. /user4/pmchen
  6206. mustard% prefix
  6207. Prefix               Server    Domain  File #  Version
  6208. /                    mint           0       2        1 imported
  6209. /sprite              mint           1       2        1 imported
  6210. /swap1               allspice       1       2        1 imported
  6211. /user3               king           3       2        1 imported
  6212. /user4               assault        9       2        1 imported
  6213. /mic                 allspice       3       2        1 imported
  6214. /user1               allspice       2       2        1 imported
  6215. /tmp                 oregano        3   55584        1 imported
  6216. /scratch             oregano        4       2        1 imported
  6217. /user2               assault        0       2        1 imported
  6218. /c                   oregano        3       2        1 imported
  6219. /sprite2             oregano      782       2        0 imported
  6220. /sprite/src          allspice       7       2        1 imported
  6221. /dist                assault        2       2        1 imported
  6222. /sprite/src/kernel   allspice       6       2        1 imported
  6223. /X11                 allspice       9       2        1 imported
  6224. /spur2               oregano      780       2        0 imported
  6225. mustard% ls /user3
  6226. /user3 not found
  6227. mustard% cd /user3
  6228. mustard% pwd
  6229. /user3
  6230. mustard% ls
  6231. jhh/        lost+found/    lutz/        ss/
  6232. mustard% cd    
  6233. mustard% pwd
  6234. /user4/pmchen
  6235. mustard% ls /user3
  6236. /user3 not found
  6237.  
  6238.  
  6239.  
  6240.  
  6241. 1132.
  6242. Date: 16 Apr 90 17:49:22 PDT (Monday)
  6243. From: "Brent_B._Welch.PARC"@Xerox.COM
  6244. Subject: Sprite at PARC
  6245.  
  6246. Here is what I've hit so far when trying to bring Sprite up.
  6247. I'm not there yet, so this is a running list.
  6248.  
  6249. Regarding the README file:
  6250.   I've already split this into a README.sunos and a README.ultrix
  6251.   There is duplication between the two, but I figured that its still
  6252.   better to isolate system dependencies.  It looks like the single README
  6253.   file has just been edited (and not completely) depending on
  6254.   what's being done.
  6255.   There is still a reference to "dev_file" that should be "devFile".
  6256.   There is no mention of what to do if you don't have
  6257.   a name server.  I'm putting /dev/null into /etc/resolve.conf for now.
  6258.  
  6259.   About fsinstall:
  6260.   It stops dead if it finds a file it can't read.  This happens in an NFS
  6261.   environment (mine, anyway) if you are running as root on the
  6262.   workstation (because you need to write the disk) and you hit an
  6263.   NFS file that is read-only to the owner.  In NFS-land a remote root
  6264.   process can't even read that kind of file, and fsinstall stops.
  6265.   So far this has found
  6266.   sprite/lib/xrn/rn.bindings
  6267.   sprite/daemons.sun3/arp.config.notused
  6268.  
  6269.   The kicker (or killer) is that fsinstall dumped core near the end,
  6270.   on or about
  6271.   sprite/boot/sun3.md/sprite (the kernel image)
  6272.   Source code would be good.
  6273.  
  6274.   I tried booting anyway because it looks like I've got most of
  6275.   the commands, plus boot/bootcmds.  However,the kernel I have
  6276.   doesn't look for a root on /dev/rxy0c, which applies to me.
  6277.   I'll have to gen up a kernel at Berkeley that looks for this
  6278.   disk.
  6279.  
  6280.   Finally, if a Sprite host can't find a file system you
  6281.   have to power-cycle it.  As my machine is downstairs
  6282.   that's sort of a pain.  The ttyDriver needs to enable
  6283.   the L1 key processing much sooner.
  6284.  
  6285.   That's all for now.  Is there a better fsinstall I can try?
  6286.  
  6287.  
  6288.  
  6289.  
  6290. 1133.
  6291. Date: Tue, 17 Apr 90 10:29:47 PDT
  6292. From: Fred Douglis <douglis>
  6293. Subject: pmake bug: trailing blank included in variable
  6294.  
  6295. in release 2.1 (beta?):
  6296.  
  6297. one of our users couldn't understand why pmake was trying to link *.po
  6298. and *.o into a single executable, in one particular directory.  It
  6299. turned out he had
  6300.  
  6301. PROFSUFFIX = .pg
  6302. NAME = foo 
  6303.       ^--- note trailing space
  6304.  
  6305. profile            : %(TM).md/%(NAME)%(PROFSUFFIX)
  6306. %(TM).md/%(NAME)%(PROFSUFFIX)    : %(OBJS:S/.o%/.po/g) %(LIBS:S/.a%/_p.a/g)
  6307.  
  6308. and this came out as
  6309.  
  6310.   ds3100.md/foo .pg : ......
  6311.  
  6312. instead of
  6313.  
  6314.   ds3100.md/foo.pg : ......
  6315.  
  6316. ...
  6317. So, is it intentional for blanks to be included at the end of
  6318. variables?  i guess you might want that, under some circumstances, but
  6319. then a warning message would certainly be useful...
  6320.  
  6321.  
  6322.  
  6323.  
  6324. 1134.
  6325. Date: Tue, 17 Apr 90 17:29:53 PDT
  6326. From: tve (Thorsten von Eicken)
  6327. Subject: gdb/tx locks up
  6328.  
  6329. I have a program which uses sockets and has a bug (obviously..).  When I try
  6330. to debug it, things look fine at first, but soon sprite starts playing tricks
  6331. on me. In particular, the process I'm debugging and gdb become
  6332. unkillable (i.e. a kill -KILL hangs), and the tx freezes as soon as I
  6333. hit control-C or thelike.
  6334. Mendel suggested that something got locked in the kernel dues to recovery or
  6335. who knows what. I rebooted, but the problem reappears quickly. To reproduce:
  6336.  
  6337. (on crackle, a sun4 running 1.063)
  6338. cd ~casotto/projects/vov/develop/shell
  6339. gdb vov_sh
  6340. [takes a while]
  6341. run -I
  6342. [takes a while, the process starts, nothing happens, wait ~10 seconds]
  6343. ctrl-C
  6344. [gdb says hello again]
  6345. run -I
  6346. [respond yes to the question, gdb says "starting program, but nothing
  6347. further happens, now hit ctrl-C and you're dead]
  6348.  
  6349. This is the quickest way to get the problem, many other roads seem to lead to
  6350. the same pit...
  6351.  
  6352.  
  6353.  
  6354.  
  6355. 1135.
  6356. Date: Wed, 18 Apr 90 08:46:32 PDT
  6357. From: ouster (John Ousterhout)
  6358. Subject: More corruptions
  6359.  
  6360. The following files were found to be corrupted yesterday:
  6361.  
  6362. /sprite/users/alc/tests/nocachetests/results.nc3
  6363. /sprite/users/hilfingr/mp/enbsigfifo.o
  6364.  
  6365. The following files were found to be corrupted today:
  6366.  
  6367. /sprite/users/david/sequent/patpg/sun3.md/md.mk
  6368.  
  6369.  
  6370.  
  6371.  
  6372. 1136.
  6373. Date: Wed, 18 Apr 90 10:16:32 PDT
  6374. From: culler (David Culler)
  6375. Subject: DBX
  6376.  
  6377. What is the chance of getting a working debugger on the DS3100?  I am
  6378. having lots of new (and some old) problems with dbx.  Step and Next
  6379. often do not work --- dbx complains about illegal instructions and
  6380. syslog says Bogus bp-trap.  
  6381.  
  6382. Also, if you let the help run to the end, dbx hangs.  Sometimes it hangs
  6383. when you ctrl-c out of the help before the end.
  6384.  
  6385.  
  6386.  
  6387.  
  6388. 1137.
  6389. Date: Wed, 18 Apr 90 13:06:39 PDT
  6390. From: tve (Thorsten von Eicken)
  6391. Subject: more corruptions (on /mic)
  6392.  
  6393. ------- Forwarded Message
  6394.  
  6395. Return-Path: daemon
  6396. Received: by sprite.Berkeley.EDU (5.59/1.29)
  6397.     id AA794713; Wed, 18 Apr 90 06:28:15 PDT
  6398. Date: Wed, 18 Apr 90 06:28:15 PDT
  6399. From: root (The Sprite God)
  6400. Message-Id: <9004181328.AA794713@sprite.Berkeley.EDU>
  6401. To: tve
  6402. Subject: Checksum run for /mic
  6403.  
  6404. Checksum started at Wed Apr 18 05:00:11 PDT 1990
  6405. Running on mint.Berkeley.EDU
  6406. ./guest/casotto/projects/vov/develop/trace/vovlib.h corrupted:  id
  6407. 148410 mtime 260812b6 old 16d0e096 new d3f5becf
  6408. 1 errors found
  6409. Checksum completed at Wed Apr 18 06:28:09 PDT 1990
  6410.  
  6411. ------- End of Forwarded Message
  6412.  
  6413. ------- Forwarded Message
  6414.  
  6415. Return-Path: daemon
  6416. Received: by sprite.Berkeley.EDU (5.59/1.29)
  6417.     id AA794713; Wed, 18 Apr 90 06:28:15 PDT
  6418. Date: Wed, 18 Apr 90 06:28:15 PDT
  6419. From: root (The Sprite God)
  6420. Message-Id: <9004181328.AA794713@sprite.Berkeley.EDU>
  6421. To: tve
  6422. Subject: Checksum run for /mic
  6423.  
  6424. Checksum started at Wed Apr 18 05:00:11 PDT 1990
  6425. Running on mint.Berkeley.EDU
  6426. ./guest/casotto/projects/vov/develop/trace/vovlib.h corrupted:  id
  6427. 148410 mtime 260812b6 old 16d0e096 new d3f5becf
  6428. 1 errors found
  6429. Checksum completed at Wed Apr 18 06:28:09 PDT 1990
  6430.  
  6431. ------- End of Forwarded Message
  6432.  
  6433.  
  6434.  
  6435. 1138.
  6436. Date: Wed, 18 Apr 90 13:42:33 PDT
  6437. From: mendel (Mendel Rosenblum)
  6438. Subject: cache bug
  6439.  
  6440. A couple of problems in the cache code:
  6441.  
  6442. When the Vm_CopyIn in Fscache_Write fails (for example if the user passes a
  6443. bogus pointer or buffer length to the write() system call), the code deletes
  6444. the cache block being writtin. This can cause data loss if the cache block
  6445. contains delayed write data not yet written to disk. Note that the lost changes
  6446. could belong to another process.
  6447.  
  6448. The cacheInfo data structure is modifed that the routines in fsCacheOps.c
  6449. and those in fsBlockCache.c. Unfortunately, the differ files contain different
  6450. MONITOR_LOCKs.  The fsCacheOps.c routines lock cacheInfoPtr->lock while
  6451. those in fsBlockCache.c use cacheLock. On a multiprocessor, two processors
  6452. could attempt read/modifiy/write instruction sequences at the same time on
  6453. this data structure.
  6454.  
  6455.  
  6456.  
  6457.  
  6458. 1139.
  6459. Date: 18 Apr 90 15:38:12 PDT (Wednesday)
  6460. From: "Brent_B._Welch.PARC"@Xerox.COM
  6461. Subject: Re: cache bug
  6462.  
  6463. About cache locking.  My goal was that the routines in
  6464. fsCacheOps.c grab the per-file monitor lock and then
  6465. call into the routines in fsBlockCache.c.  That latter
  6466. grabs a global cache lock.  So, when a routine in
  6467. fsBlockCache.c modifies a cacheInfo structure it
  6468. should already be locked.  This may or may not be
  6469. true in all cases - background processing comes to mind.
  6470.  
  6471.  
  6472.  
  6473.  
  6474. 1140.
  6475. Date: Wed, 18 Apr 90 15:48:45 PDT
  6476. From: tve (Thorsten von Eicken)
  6477. Subject: big debugging problems on sun4
  6478.  
  6479. More of the style as I reported yesterday (subject was: gdb/tx locks up).
  6480. Does gdb run at all?????
  6481.  
  6482.  
  6483. 1141.
  6484. Date: Wed, 18 Apr 90 19:33:40 PDT
  6485. From: mgbaker (Mary Gray Baker)
  6486. Subject: funny date
  6487.  
  6488. I just recompiled sys/{sun4c,sun4,sun3}.md/sys.o and here are the dates of the
  6489. respective machine type binaries:
  6490.  
  6491. ls -lt *.md/sys.o
  6492. -rwxrwxr-x  1 mgbaker    159603 Apr 18  1990 sun3.md/sys.o*
  6493. -rwxrwxr-x  1 mgbaker    144228 Apr 18 19:28 sun4.md/sys.o*
  6494. -rwxrwxr-x  1 mgbaker    142548 Apr 18 19:27 sun4c.md/sys.o*
  6495. -rw-rw-r--  1 mgbaker    115728 Apr 18 17:35 ds3100.md/sys.o
  6496. -rw-rw-r--  1 jhh        154146 Mar 30 12:44 spur.md/sys.o
  6497. -rw-rw-r--  1 douglis    109188 Oct 31 13:57 cleands3100.md/sys.o
  6498.  
  6499. The sun3.md/sys.o looks funny to me.
  6500.  
  6501.  
  6502. 1142.
  6503. Date: Thu, 19 Apr 90 09:14:42 PDT
  6504. From: ouster (John Ousterhout)
  6505. Subject: Allspice crash
  6506.  
  6507. When I came in this morning Allspice was dead, with our old familiar
  6508. friend, "Fscache_DeleteFile failed...".  I have a very difficult time
  6509. rebooting it, because the kernel "sun4.md/new" (1.064) didn't boot:
  6510. it hung just after printing the line "IE-0 net interface at ...".
  6511. After trying various things like power-cycling the machine, I
  6512. eventually gave up and tried the default kernel (1.063), which worked.
  6513. Did someone install an untested .new kernel recently?
  6514.  
  6515.  
  6516.  
  6517.  
  6518. 1143.
  6519. Date: Thu, 19 Apr 90 13:03:06 PDT
  6520. From: mgbaker (Mary Gray Baker)
  6521. Subject: Re: Allspice crash
  6522.  
  6523. I installed a new new kernel yesterday.  Things seemed to work on all the
  6524. machine types when I linked it from my home directory.  I then installed it
  6525. and then tested it again on 2 out of the 4 machine types.  In the meantime,
  6526. something bad must have happened to the rpc module, because to fix the
  6527. problem, I just recompiled the rpc module.  Nothing had been edited  but the
  6528. binary was a different size.  I saved the binary to see if it got corrupted
  6529. somehow.  I just reinstalled the new new kernel which boots fine on anise.
  6530.  
  6531. I'm sorry about the trouble, but I did try testing the stuff!
  6532.  
  6533.  
  6534.  
  6535.  
  6536.  
  6537. 1144.
  6538. Date: Thu, 19 Apr 90 13:05:09 PDT
  6539. From: shirriff (Ken Shirriff)
  6540. Subject: Re: Allspice crash
  6541.  
  6542. Allspice crashed around 12:15.  It was running the 1.063 kernel.
  6543. The crash was:
  6544. MachHandleWeirdoInstruction: unaligned address trap in the kernel
  6545. Fatal Error: MachHandleWeirdoInstruction: the error occured in a kernel proc
  6546.    with procPtr=f66c4de0 and pc=f604770c
  6547.  
  6548. Rosemary was down for disk work, so I couldn't debug it.
  6549.  
  6550.  
  6551.  
  6552. 1145.
  6553. Date: Thu, 19 Apr 90 13:58:40 PDT
  6554. From: mgbaker (Mary Gray Baker)
  6555. Subject: Re: Allspice crash
  6556.  
  6557. I just ran the debugger on 1.063 to see where allspice crashed.  It crashed
  6558. in FslclLookup at line 342 where it indirects through curHandlePtr and
  6559. curHandlePtr->descPtr:
  6560.  
  6561.  
  6562.  
  6563.         /*
  6564.          * At this point we have a locked handle on the current point
  6565.          * in the lookup, and perhaps have a locked handle on the parent.
  6566.          * Links are expanded now so we know whether or not the
  6567.          * lookup is completed.  On the last component, we only
  6568.          * expand the link if the FS_FOLLOW flag is present.
  6569.          */
  6570.     if ((status == SUCCESS) &&
  6571.         ((*curCharPtr != '\0') || (useFlags & FS_FOLLOW)) &&
  6572.         ((curHandlePtr->descPtr->fileType == FS_SYMBOLIC_LINK ||
  6573.         CurHandlePtr->descPtr->fileType == FS_REMOTE_LINK))) {
  6574.  
  6575. Have we ever had a problem with one of these being NIL or otherwise
  6576. bogus before?
  6577.  
  6578.  
  6579.  
  6580.  
  6581.  
  6582. 1146.
  6583. Date: Thu, 19 Apr 90 14:32:25 PDT
  6584. From: schauser (Klaus Erik Schauser)
  6585. Subject: bus error
  6586.  
  6587. I very often get the following severe error on paprika (sun 3/75).
  6588. Entering debugger with a bus error exeption
  6589. at pc 0xe06d1ac
  6590. It seems to happen when I work with emacs under xwindows.
  6591. It happens about once a day, afterwards everything is dead, so 
  6592. I need to reboot.
  6593.  
  6594. When rebooting, the boot process sometimes stops after
  6595. the line
  6596. using IP adress ....
  6597. But trying to boot for the second time usually helps.
  6598.  
  6599. Please keep me informed.
  6600.  
  6601.  
  6602.  
  6603.  
  6604. 1147.
  6605. Date: Thu, 19 Apr 90 15:25:02 PDT
  6606. From: elm (ethan miller)
  6607. Subject: highlight problem in twm, X11R4
  6608.  
  6609. When I use twm under X11R4, the windows that are supposed to be
  6610. highlighted by a border change when I move the mouse aren't
  6611. highlighted.  The X11R3 version of twm changed the border to
  6612. (in my case) red whenever input was being sent to that window.
  6613. This is not a serious bug, but it would be nice if someone looked
  6614. at it if they had the chance (or told me where to look).
  6615.  
  6616. All of this occurs on my SparcStation (terrorism).
  6617.  
  6618.  
  6619.  
  6620.  
  6621. 1148.
  6622. Date: Thu, 19 Apr 90 16:03:29 PDT
  6623. From: tve (Thorsten von Eicken)
  6624. Subject: Re: highlight problem in twm, X11R4
  6625.  
  6626. Yes, I get that too. I seem to remember that it's a bug for which a fix is
  6627. floating around.  Due to disk space limitations, it's hard to apply the
  6628. fixes now. Please hang on....
  6629.  
  6630.  
  6631.  
  6632.  
  6633. 1149.
  6634. Date: Thu, 19 Apr 90 16:52:57 PDT
  6635. From: tve (Thorsten von Eicken)
  6636. Subject: last allspice crash
  6637.  
  6638. It seems allspice crashed between yesterday evening and this afternoon. None
  6639. of the machines in 444 recovered in any way: they were all completely dead.
  6640. Dunno whether that means anything...
  6641.  
  6642.  
  6643.  
  6644. 1150.
  6645. Date: Thu, 19 Apr 90 18:19:22 PDT
  6646. From: rab (Robert A. Bruce)
  6647. Subject: Allspice crash
  6648.  
  6649. Allspice crashed.  It paniced in Fscache_DeleteFile, line 1372
  6650.  
  6651.  
  6652.     /*
  6653.      * At this point the file should have no cache blocks associated
  6654.      * with it, clean or dirty, and the file itself should not be
  6655.      * on the dirty list or being written out.
  6656.      */
  6657.     if ((cacheInfoPtr->blocksInCache > 0) ||
  6658.     (cacheInfoPtr->flags & (FSCACHE_FILE_ON_DIRTY_LIST|
  6659.                 FSCACHE_FILE_BEING_WRITTEN))) {
  6660.     panic("Fscache_DeleteFile failed \"%s\" blocks %d flags %x\n",
  6661.         Fsutil_HandleName(cacheInfoPtr->hdrPtr),
  6662.         cacheInfoPtr->blocksInCache,
  6663.         cacheInfoPtr->flags);
  6664.     }
  6665.  
  6666. cacheInfoPtr->blocksInCache was zero, but cacheInfoPtr->flags was
  6667. 0x0880, which is (FSCACHE_FILE_GONE | FSCACHE_FILE_ON_DIRTY_LIST).
  6668.  
  6669.  
  6670.  
  6671.  
  6672. 1151.
  6673. Date: Thu, 19 Apr 90 19:42:37 PDT
  6674. From: brent (Brent Welch)
  6675. Subject: distribution bugs
  6676.  
  6677. Sprite is sort of up at PARC.  Along the way I've
  6678. noted the following problems with the distribution
  6679. and/or Sprite itself.
  6680.  
  6681. 1) (We know about this...) You can't really use a 'c'
  6682.     partition for a file system unless the 'a'
  6683.     partition is of equal size.  No wait, actually
  6684.     if the table in devConfig.c is set up to look
  6685.     only for the 'c' partition (unit 2) then the
  6686.     attach of the 'c' partition will work.  However,
  6687.     if the table looks for 'a', then the switch-over
  6688.     to partition 'c' (based on header info) is too
  6689.     late.  The driver already thinks the 'a' partition
  6690.     is corresponds to the file system and you can't
  6691.     access most of the 'c' partition.  I had to resort
  6692.     to either patching my kernel's table or changing
  6693.     the disk label so 'a' == 'c'.
  6694.  
  6695. 2) There is no xy0c in the devFile, so this device isn't created.
  6696.     Of course this is the device that I named in my mount table...
  6697.     I fixed my devFile (the file with the list of devices to create)
  6698.     to include all the xy0 partitions (a through h).  I can't
  6699.     think of a good reason to leave any out.
  6700.  
  6701. 3) loadavg is run with the wrong arguments in bootcmds.  It should be
  6702.     replaced all together wiht a call to /sprite/daemons/migd.
  6703.  
  6704. 4) I have to boot "ie() -a" to net-boot my machine.  initsprite doesn't
  6705.     grok the -a argument and is noisey about it.
  6706.  
  6707. 5) Finally, and perhaps most seriously, I think the formatting
  6708.     done by fsinstall/fsmake for the non-scsi disks isn't right.
  6709.     It doesn't handle drives with reserved sectors on each track.
  6710.     My disk has 67 sectors/track, but it is formatted so that only
  6711.     64 sectors appear and the rest are reserved for 'slip-sector'
  6712.     handling of bad spots on the disk.  fsmake uses the raw values
  6713.     of the sectors/track that it gets from the disk label.
  6714.     I patched around this by using dbx to reset the value to 64
  6715.     before it laid out the file system.  Unfortunately the only
  6716.     way to determine the number of formatted sectors is to do
  6717.     a low-level read of a track and count up logical sectors.
  6718.  
  6719. 6) fsinstall doesn't create a lost+found directory if one isn't in
  6720.     the directory structure to copy.  It should.
  6721.  
  6722. 7) It appears that fsinstall doesn't write-out the root directory
  6723.     until its all done.  At least if it bombs out part-way through
  6724.     the root directory only has "." and ".." in it.  I had
  6725.     to figure that out by running the kernel debugger, which
  6726.     seems to work just fine over here.
  6727.  
  6728.  
  6729.  
  6730.  
  6731. 1152.
  6732. Date: 19 Apr 90 16:48:36 PDT (Thursday)
  6733. From: "Brent_B._Welch.PARC"@Xerox.COM
  6734. Subject: Re: Allspice crash
  6735.  
  6736. Perhaps the descPtr was NIL.  This happens when a handle`
  6737. gets removed too soon.
  6738.  
  6739.  
  6740.  
  6741.  
  6742. 1153.
  6743. Date: Fri, 20 Apr 90 12:45:25 PDT
  6744. From: tve (Thorsten von Eicken)
  6745. Subject: nfsmount in DEBUG
  6746.  
  6747. root     c263c  0.0 21.2  5584  3464 DEBUG   2:57    nfsmount eros:/octtools /eros/octtools 
  6748.  
  6749. As you can see, it got quite large (5Megs), and that in about 20 minutes of use!
  6750. Is anyone looking at it? Spring cleaning? SUmmer cleaning?
  6751.  
  6752.  
  6753.  
  6754.  
  6755. 1154.
  6756. Date: Fri, 20 Apr 90 14:36:17 PDT
  6757. From: tve (Thorsten von Eicken)
  6758. Subject: entertaining recovery with oregano
  6759.  
  6760. At first crackle didn't want to recover, I had to "play around a bit" typing
  6761. commands etc... Then the syslog went wild scrolling the following:
  6762.  
  6763. [crackle tve] Fsprefix_HandleClose nuking "/c"
  6764. Broadcasting for server of "/c"
  6765. 4/20/90 14:33:09 oregano (38) - recovering handles
  6766. Fsprefix_HandleClose nuking "/tmp"
  6767. Importing "/c" from oregano
  6768. ....
  6769. Fsprefix_OpenCheck waiting for recovery
  6770. Fsprefix_OpenCheck ok
  6771. Fsprefix_OpenCheck ok
  6772. Fsprefix_OpenCheck ok
  6773. LE ethernet: Received packet with overflow error.
  6774.  
  6775.  
  6776.  
  6777. 1155.
  6778. Date: Fri, 20 Apr 90 14:59:10 PDT
  6779. From: Fred Douglis <douglis>
  6780. Subject: Re: entertaining recovery with oregano 
  6781.  
  6782. i should point out that the repeating recovery is due to a timeout on
  6783. a pair of prefix RPCs that are going to oregano.  why it's doing a
  6784. prefix rpc directly to oregano, and why that rpc is timing out, is
  6785. beyond me.  i did notice that almost all of oregano's daemons, esp.
  6786. nfsmount and inetd, disappeared earlier.  i had a prefix entry for
  6787. /envy/usr on oregano, but even deleting that prefix didn't cause the
  6788. timeouts to stop.
  6789.  
  6790.  
  6791.  
  6792. 1156.
  6793. Date: Fri, 20 Apr 90 16:26:40 PDT
  6794. From: mgbaker (Mary Gray Baker)
  6795. Subject: Re: entertaining recovery with oregano
  6796.  
  6797. I had the same experience with a prefix on assault yesterday.  I was unable
  6798. to touch /rosemary/tmp without my machine going crazy.  I'll try to figure out
  6799. what's going on.
  6800.  
  6801.  
  6802.  
  6803.  
  6804. 1157.
  6805. Date: Fri, 20 Apr 90 19:09:03 PDT
  6806. From: mgbaker (Mary Gray Baker)
  6807. Subject: Horrible time with mint
  6808.  
  6809. I got back from aerobics and mint had crashed, apparently while it had been
  6810. rebooting from another crash.  It said a bunch of nasty things on its console.
  6811. There were about 5 or 6 rpc version mismatch messages with bad client and srvr
  6812. fields:
  6813.  
  6814. Version mismatch clt 175 srv 329 file "noname" from client 25
  6815.  
  6816. Then it said
  6817.  
  6818. MEMORY ERROR! Status DF, DVMA-BIT 0, Context 0,
  6819.     Vaddr: E1E5330, Paddr: 001F3330, Type 0 at 0E020CA2
  6820.  
  6821. Break FFFF at 0E020CA0
  6822. >
  6823. Warning: Intel: Bus error on chip
  6824.  
  6825. And then it had another memory error with the number E020E4A instead, followed
  6826. by a break and a prom prompt and an Intel bus error.  I hit return on the
  6827. console and it printed out 3 more version mismatches!  Then it got more
  6828. memory errors, etc.  Then it managed to sync its disks and put itself in the
  6829. debugger due to the current process being NIL.  Everything was such a mess
  6830. that I didn't think it could be worthwhile to debug it and I decided to reset
  6831. it to see if that helped.  I did a k1 but a k2 froze.  I had to power cycle it,
  6832. twice.  I finally got it to reboot, with a few version mismatches and an
  6833. all-time winner of a recovery storm.  Unfortunately from the point of view
  6834. of debugging our recent recovery problems, all the machines with recovery
  6835. tracing appeared to recover just fine.
  6836.  
  6837. At least the air in the machine room hadn't been reached by the evening
  6838. stink bomb, so I was able to breathe well for a while.
  6839.  
  6840.  
  6841.  
  6842.  
  6843. 1158.
  6844. Date: Mon, 23 Apr 90 08:23:43 PDT
  6845. From: ouster (John Ousterhout)
  6846. Subject: rsh to allspice broken
  6847.  
  6848. Rsh doesn't seem to work to Allspice.  When I try it from Tyranny
  6849. (under my account) or from Mint (under the root account) I get
  6850. "allspice.Berkeley.EDU: connection refused".  I know this used to
  6851. work, because the checksum program uses it;  it stopped working
  6852. around the middle of last week.
  6853.  
  6854.  
  6855.  
  6856.  
  6857. 1159.
  6858. Date: Fri, 20 Apr 90 21:02:13 EDT
  6859. From: douglis@piquante.Berkeley.EDU (Fred Douglis)
  6860. Subject: mint was ailing.  so is ginger.
  6861.  
  6862. 1) mint died with a negative reference count.  it looks like Fsconsist_Kill
  6863. set the reference count on a client structure to all 0's but then
  6864. Fsconsist_IOClientClose decremented it to -1.  This was after 
  6865. mint got a stale handle status back from host 56 after it rebooted.
  6866.  
  6867. 2)
  6868. mint was continued okay from this state, but wedged up during recovery.
  6869. it printed various messages about files "alc" and "shirriff" with different
  6870. clients having dirty blocks -- check those mail files!  it wouldn't
  6871. respond to break-d or break -anything else, complaining "non-zero
  6872. character on serialB" or something to that effect.
  6873.  
  6874. 3) ginger's console is totally unusable because it is hung
  6875. on an NFS mount to mint, of all places.  anyone know who might
  6876. have nfs-mounted mint to ginger (a hard mount to boot!)?  bks
  6877. said this happened a week ago too.  logins to ginger wedge up
  6878. as well -- i could run kmsg only by logging in remotely as root.
  6879.  
  6880.  
  6881.  
  6882.  
  6883. 1160.
  6884. Date: Mon, 23 Apr 90 10:35:49 PDT
  6885. From: Fred Douglis <douglis>
  6886. Subject: allspice daemons
  6887.  
  6888. its inetd was running but was not working properly, and its sendmail
  6889. had disappeared completely.  this is similar to what has happened
  6890. recently with oregano, the difference being that it's necessary to log
  6891. in to allspice directly to kill its ipServer (whereas i could migrate
  6892. onto oregano enough to get the processID and kill it remotely).  
  6893.  
  6894.  
  6895.  
  6896. 1161.
  6897. Date: Mon, 23 Apr 90 17:36:30 PDT
  6898. From: sequent!fubar@uunet.uu.net
  6899. Subject: /sprite/cmds/tape write eof buglet
  6900.  
  6901. /sprite/src/cmds/tape/tape.c as distributed has:
  6902. [...the beginning of the file...]
  6903. int skipFiles = 0;
  6904. int skipBlocks = 0;
  6905. int writeIt = 0;
  6906. int blockSize = 16 * 1024;
  6907. int weof = 0;
  6908.  
  6909. Option optionArray[] = {
  6910.     { OPT_STRING, "t", (Address)&tapeFile, "Name of tape device" },
  6911.     { OPT_TRUE, "r", (Address)&rewindIt, "Rewind the tape" },
  6912.     { OPT_TRUE, "T", (Address)&retension, "Retension the tape" },
  6913.     { OPT_TRUE, "e", (Address)&gotoEnd, "Skip to the end of the tape" },
  6914.     { OPT_INT, "f", (Address)&skipFiles, "Number of tape files to skip" }, 
  6915.     { OPT_INT, "b", (Address)&skipBlocks, "Number of blocks to skip" }, 
  6916.     { OPT_INT, "m", (Address)&skipBlocks, "Number of end-of-file marks to write" }, 
  6917.     { OPT_INT, "B", (Address)&blockSize, "Block size" },
  6918. [...the rest of the file...]
  6919.  
  6920.     Note the arg to the "m" option.  This should probably be:
  6921.  
  6922.     { OPT_INT, "m", (Address)&weof, "Number of end-of-file marks to write" }, 
  6923.  
  6924.  
  6925.  
  6926.  
  6927. 1162.
  6928. Date: Mon, 23 Apr 90 17:47:15 PDT
  6929. From: elm (ethan miller)
  6930. Subject: funny recovery state
  6931.  
  6932. I get the following message sequence, in an infinite loop, in the
  6933. syslog:
  6934. 4/23/90 17:37:46 allspice (14) - recovering handles
  6935. 4/23/90 17:37:46 allspice (14) Recovery complete 104 handles reopened
  6936. 4/23/90 17:37:46 allspice (14) Fs_PageCopy, waiting for server %d
  6937. 4/23/90 17:37:46 allspice (14) RmtFile "43" <1,38574> : stale handle
  6938. <prefix> 4/23/90 17:37:52 broadcast (0) RPC timed-out
  6939.  
  6940. This is on terrorism, and it occurred after allspice's crash and
  6941. recovery on Monday afternoon.  At the time of the crash, the
  6942. shell in question (tcsh) was trying to execute an ls -l.  I don't
  6943. know which directory was being listed, but I know it was a native
  6944. Sprite (not NFS) directory.
  6945.  
  6946. I am rebooting terrorism.
  6947.  
  6948.  
  6949.  
  6950.  
  6951. 1163.
  6952. Date: 23 Apr 90 18:10:03 PDT (Monday)
  6953. From: "Brent_B._Welch.PARC"@Xerox.COM
  6954. Subject: Re: funny recovery state
  6955.  
  6956. Sounds like Fs_PageCopy needs to guard against an
  6957. invalid handle (Fsutil_HandleInvalid ?)  caused by failed recovery.
  6958.  
  6959.  
  6960.  
  6961.  
  6962. 1164.
  6963. Date: Tue, 24 Apr 90 13:12:36 PDT
  6964. From: shirriff (Ken Shirriff)
  6965. Subject: Allspice crashed
  6966.  
  6967. Allspice crashed with:
  6968. MachHandleWeirdoInstruction: unaligned address trap
  6969. procPtr = f681c4b8, pc=f605d390
  6970. Entering debugger
  6971. TI TI TI TI TI [repeat from MachHandleWeirdoInstruction...]
  6972. After a bunch of this it did a watchdog reset, so I rebooted it.
  6973.  
  6974.  
  6975.  
  6976.  
  6977. 1165.
  6978. Date: Tue, 24 Apr 90 15:57:48 PDT
  6979. From: eklee (Edward K. Lee)
  6980. Subject: trashed file
  6981.  
  6982. The file ~eklee/raidSim3/test.L/test.8/tmult.out has been trashed sometime
  6983. in the last 5 or ten minutes (that's when I created the file).
  6984. I've moved it to ~eklee/trashed/tmult.out in case someone wants to look at it.
  6985. The file now consists of fragments of other peoples mail messages.
  6986. Luckily, it's a machine generated file that is easy to replace.
  6987.  
  6988.  
  6989.  
  6990.  
  6991. 1166.
  6992. Date: Tue, 24 Apr 90 16:08:23 PDT
  6993. From: Fred Douglis <douglis>
  6994. Subject: Re: trashed file 
  6995.  
  6996. both of the mail fragments in ed's trashed files are copies of
  6997. *outgoing* mail from my account.  i use MH to send mail, so drafts go
  6998. in /user2/douglis/Mail/drafts/...., while ed's file was also on
  6999. assault in /user4.  both of my messages were created in the few
  7000. minutes preceeding ed's message.  in fact, i can date the second
  7001. message as 15:49 and the first one only a few minutes before that. 
  7002.  
  7003. assault did not crash during that time, but i did recovery w/ oregano
  7004. a few times in there.  for whatever that's worth.
  7005.  
  7006. the first draft was contained in ed's file in its entirety, from
  7007. offset 0 to 0134.  the second was partial (maybe from an autosave
  7008. file?), from offset 010000 to 010330.  there were nulls in between and
  7009. following the second draft. 
  7010.  
  7011.  
  7012.  
  7013.  
  7014. 1167.
  7015. Date: Tue, 24 Apr 90 17:14:20 PDT
  7016. From: tve (Thorsten von Eicken)
  7017. Subject: rcsmerge doesn't work
  7018.  
  7019. In particular, it calls merge, which calls diff3 giving it 5 filenames. Diff3
  7020. turns around and says it accepts only 3 filenames.
  7021.  
  7022.  
  7023.  
  7024.  
  7025. 1168.
  7026. From: mtxinu!uunet.uu.net!myrias!alberta!anthony@ucbvax.Berkeley.EDU
  7027. Date: Tue, 24 Apr 90 14:59:42 -0600
  7028. Subject: Status
  7029.  
  7030.     This message is a report on our sprite status, (things are not
  7031. too good).
  7032.  
  7033. 1) XSprite still does not work. After much looking around and ftping
  7034. sources I managed to compile a debuggable version. It turns out that
  7035. the server was allocating pixmap memory at virtual address 0x80000
  7036. which when the program tried  to write this address when painting the
  7037. gray screen background would die with a segmentation violation. This
  7038. happened in Xsprite(Xmfb)/mfbpntwin.c in function mfbPaintWindow (I do
  7039. not have the line number with me at the moment but will get it to you
  7040. if it is necessary at a later date).
  7041.  
  7042. 2) I left the Xsprite problem for a while to work on trying to get our
  7043. new hard disk working. All attempts at using mkscsidev/update,
  7044. fsmake/fsinstall, fsmake/tar, fsmake/dump/restore failed. So I looked
  7045. into the source for fsinstall, made a few modifications (two patches
  7046. and one bug fix), and by installing a disktab entry for our new disk
  7047. in /etc/disktab we managed to get it to install all the files from our
  7048. small disk onto our our new disk, with the exception of pdevs and
  7049. regular devs. The pdevs and dev. had to be recreated (some by hand).
  7050. One of the problems I faced  in patching fsinstall was making the
  7051. binary. I kept getting errors when I compiled it locally, so I
  7052. changed the source locally, and built it at "murder". 
  7053. Well after everything got setup we booted off the new disk with a few
  7054. problems, I do not recall which, but managed to fix them, one of the
  7055. problems was the all -heapSize 1000000 command in the mount file; it
  7056. was too small, so we removed the -heap limitation (Booting now is quit
  7057. slow, since the fscheck reads the whole disk). (The new
  7058. disk 500Mbytes, while the old one was 120Mbytes). Things looked good
  7059. for a while, until I started getting BlockIOProc: messages on the
  7060. console. (From kernel/dev/devSCSIDisk.c:47). THe compliate was about
  7061. some sector number being larger than an other. Well at the time it did
  7062. not seem to affect much. The error came when ever the cpu/disk where
  7063. fairly busy, like in a compilation of a large piece of software (I was
  7064. remake the Xsprite software at the time). I got a few other errors
  7065. from the file system. One of the other errors was
  7066. "FsioVerifyBlockWrite: disk block mismatch..." This one was terminal.
  7067. It seems that a swap file was corrupted. To fix this one I removed the
  7068. directory (/swap/1/132) and rebooted the machine. I also got a Fsdm
  7069. error, but I did not make any record of it. One of the things I
  7070. noticed with the BlockIOProc errors was it heralded the magic
  7071. corruption of a users file, after which that file would always be
  7072. overwritten with trash by some wonderful invisible imp. Now I had plans
  7073. to look at the BlockIOProc errors to try and determine there cause,
  7074. but I was under pressure to bring X up on my machine, so I ignored the
  7075. problem (Bad error) and proceeded to ftp sources from the /X11R3
  7076. directories. (At this point I would like to put in a plug for a /X11R3
  7077. tape). Well today in attempting to compile Xsp I ran into a large
  7078. number of BlockIOProc errors when the make reached the "cfb" subdir,
  7079. together with a number of fsdm type errors (do not recall, said
  7080. something about attach and File ID <1, 1, 175>). Well to cut a long
  7081. story short, somehow, somewhere I managed to trash the / dir so bad
  7082. that the fs sys was unable to write anything. Reads at the time would
  7083. work, for the current dir etc. I tried to sync the disk, but to no
  7084. avail, so in frustration and haste (another bad move) I aborted the
  7085. machine and tried  to reboot. Well Now the / prefix will not come on
  7086. line since it is corrupted. The boot phase gets to Executing diskcmds.
  7087. and comes up with the error "Corrupted directory? File ID <1, 1, 175>
  7088. dirBlockNum<0>, blockOffset <0>" The boot programs then close  the "/"
  7089. and broadcasts for the / server, which it will not find since I am the
  7090. only sprite site still. (Figure now in retrospect I should have tried 
  7091. to do a fscheck with fixRoot, before aborting). Now the name of the
  7092. game is to try and recover from this drastic error with out setting me
  7093. back weeks. Since our sprite site has never been fully operational we
  7094. have not had backup services being done, so I could lose a whole hog
  7095. of work.
  7096.  
  7097. Now these disk errors where not present in our small disk sprite
  7098. operations, so they have to be the result of the new disk, but I have
  7099. idea where why how. In site from knowedgable spriters would be useful.
  7100.  
  7101. Well for now I going to try to see if I boot of the old disk maybe I
  7102. can fix the root of the new disk with fscheck. (maybe, :-))
  7103.  
  7104. As for the fsinstall, I think if you look at the file
  7105. ~anthony/src/fsinstall/fsmake.c you should be able to get a diff with
  7106. the regular fsmake.c to highlight the diffs.
  7107.  
  7108. Just as a reminder we have a sun 3/60 (output from the Sys_getArch...
  7109. call is Arch=3 Type=0x17) 500Mbyte hard disk (a temporary 120Mbyte
  7110. hard disk with our original sprite setup). The machines name is
  7111. swalwell.cs.ualberta.ca 129.128.4.26 and if it is up is available on
  7112. Internet. I have lead to belive that the host entry tables at UBC
  7113. (British Columbia) have been updated to point to our name server
  7114. 129.128.4.241. And an account with id rab passwd ? (if you have not
  7115. changed it see prio mail I cannot remember what it was).
  7116.  
  7117. My work on the Virtual Machine has been stalled by the difficulties I
  7118. have been having, but I really have hopes of getting it done if I can
  7119. get past these troubles.
  7120.  
  7121. I know this report is not all together complete, but I thought I
  7122. should send something while I wait for the sys. people to come fix up
  7123. my disk setup. 
  7124.  
  7125.  
  7126.  
  7127.  
  7128.  
  7129. 1169.
  7130. Date: 25 Apr 90 13:11:45 PDT (Wednesday)
  7131. From: "Brent_B._Welch.PARC"@Xerox.COM
  7132. Subject: Re: allspice crash
  7133.  
  7134. I know this is a patch, but it looks like it would
  7135. be safe to simply remove the cacheInfoPtr from
  7136. the dirty-file-list where there current panic kicks in.
  7137. The file is marked FSCACHE_FILE_GONE, so no
  7138. I/O operations will do anything, and all the block
  7139. lists for the file are empty, so no blocks would be
  7140. abandoned.  The fix, of course, is to determine who
  7141. or how the file is being put back onto the dirty list.
  7142.  
  7143. Mendel, do you know of a good reason why this
  7144. won't work?
  7145.  
  7146.  
  7147.  
  7148.  
  7149. 1170.
  7150. Date: Wed, 25 Apr 90 14:38:42 PDT
  7151. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  7152. Subject: babylon crash
  7153.  
  7154. Babylon had a process that was locked, so that anything that touched
  7155. it would freeze up, like "ps".  The process was in the middle of being
  7156. migrated (Proc_MigrateTrap) and was trying to free a page.  The
  7157. page had the following flags set: VM_DONT_FREE_UNTIL_CLEAN, 
  7158. VM_SEG_PAGEOUT_WAIT, VM_DIRTY_PAGE, and VM_FREE_PAGE.  The process
  7159. was waiting because of the VM_DONT_FREE_UNTIL_CLEAN.  I could not find
  7160. an entry on the timer queue corresponding to a call to PageOut nor
  7161. could I find a Proc_ServerProc that was handling it already.  Evidently
  7162. it was lost.  The kernel was ds3100.KS.079, which is comprised of
  7163. all uninstalled modules.
  7164.  
  7165. Here is a backtrace of the process:
  7166.  
  7167. >  0 Mach_ContextSwitch(0xc01efd24, 0xfffff, 0x800b7a70, 0x8013a218,
  7168. 0x800b8920) ["ds3100.md/machAsm.s":929, 0x80032ff8]
  7169.    1 Sched_ContextSwitchInt(state = PROC_WAITING) ["schedule.c":434,
  7170. 0x800b4668]
  7171.    2 SyncEventWaitInt(event = 2149077728, wakeIfSignal = 0)
  7172. ["syncLock.c":673, 0x800b891c]
  7173.    3 Sync_SlowWait(conditionPtr = 0x801852e0, lockPtr = 0x8013a218,
  7174. wakeIfSignal = 0) ["syncLock.c":283, 0x800b7a7c]
  7175.    4 VmPageFreeInt(pfNum = 2148770328) ["vmPage.c":1280, 0x800c5750]
  7176.    5 VmPageFree(pfNum = 3916) ["vmPage.c":1316, 0x800c57d0]
  7177.    6 FreePages(segPtr = 0x800eb33c) ["vmMigrate.c":729, 0x800c4294]
  7178.    7 Vm_EncapState(procPtr = 0xc01ee2e4, hostID = 60, infoPtr = 0xc12efd00,
  7179. bufferPtr = 0xc021cbf4 = "") ["vmMigrate.c":168, 0x800c3748]
  7180.    8 Proc_MigrateTrap(procPtr = 0xc01ee2e4) ["procMigrate.c":590, 0x8009f078]
  7181.    9 Sig_Handle(procPtr = (nil), sigStackPtr = 0xc12efe2c, pcPtr =
  7182. 0xc12efe28) ["signals.c":1193, 0x800b72f0]
  7183.   10 .block15 ["ds3100.md/machCode.c":1275, 0x80034dc4]
  7184.   11 MachUserReturn(procPtr = 0xc01ee2e4) ["ds3100.md/machCode.c":1275,
  7185. 0x80034dc4]
  7186.   12 MachSysCall(0x0, 0x1, 0x7ddffc80, 0x7ddffc7c, 0x7ddffc78)
  7187. ["ds3100.md/machAsm.s":1531, 0x800335e4]
  7188.  
  7189.  
  7190. Here is the contents of the corePtr corresponding to the page:
  7191.  
  7192. (kdbx) p coreMap[3916]
  7193. struct {
  7194.     links = struct {
  7195.         prevPtr = 0x801b9c88
  7196.         nextPtr = 0x801ae810
  7197.     }
  7198.     virtPage = struct {
  7199.         segPtr = 0x801852d0
  7200.         page = 65536
  7201.         offset = 636
  7202.         flags = 1
  7203.         sharedPtr = (nil)
  7204.     }
  7205.     wireCount = 0
  7206.     lockCount = 0
  7207.     flags = 23
  7208.     lastRef = 641065999
  7209. (kdbx) p (char *) 23
  7210. 0x17 
  7211.  
  7212.  
  7213.  
  7214.  
  7215. 1171.
  7216. Date: 25 Apr 90 16:02:00 PDT (Wednesday)
  7217. From: "Brent_B._Welch.PARC"@Xerox.COM
  7218. Subject: FS troubles
  7219.  
  7220. There are two different things.  The double-insert avoided
  7221. message regards a fixed race condition.  You should be
  7222. able to nuke that helpful message.  The other situation
  7223. is still unexplained.  Indeed, we do not want deleted
  7224. files on the dirty list.  I'm pretty sure that you can simply
  7225. remove the file from the dirty list at the point of the
  7226. panic because there are no cache blocks associated with it.
  7227. Since you have a repeatable test case, then I think
  7228. you should try that.  Of course, we still want to know
  7229. why/who is putting the FSCACHE_FILE_GONE back
  7230. onto the dirty list, and fix the bug there instaed of
  7231. patching it later.
  7232.  
  7233.  
  7234.  
  7235.  
  7236. 1172.
  7237. Date: Wed, 25 Apr 90 18:20:58 PDT
  7238. From: elm (ethan miller)
  7239. Subject: killdebug problems
  7240.  
  7241. On my SparcStation, killdebug fails to recognize any process in the
  7242. debugger if its process ID is only 4 digits long.  It doesn't print
  7243. the pid of the process and the process isn't killed.  This is obviously
  7244. not a serious bug, but someone should know it exists.
  7245.  
  7246.  
  7247.  
  7248.  
  7249. 1173.
  7250. Date: Wed, 25 Apr 90 19:06:14 PDT
  7251. From: rab (Robert A. Bruce)
  7252. Subject: evil file
  7253.  
  7254. The file /user1/262/aho.bad/.cshrc is a bad file.  If you attempt to
  7255. access it in any way your shell will lock up.  I couldn't ls it
  7256. or stat it or even mv it.
  7257.  
  7258.  
  7259.  
  7260.  
  7261. 1174.
  7262. Date: Wed, 25 Apr 90 19:48:29 PDT
  7263. From: rab (Robert A. Bruce)
  7264. Subject: /newroot
  7265.  
  7266. When I run df it says there is 214 meg in use on /newroot, but
  7267. when I run ls it says there is nothing in the directory.  Even
  7268. . and .. are missing.
  7269.  
  7270.  
  7271.  
  7272.  
  7273. 1175.
  7274. Date: Wed, 25 Apr 90 21:44:13 PDT
  7275. From: shirriff (Ken Shirriff)
  7276. Subject: IOC_REPOSITION fails on nfsmount of miro
  7277.  
  7278. Nfsmount doesn't seem to handle IOC_REPOSITION, so fseek fails to
  7279. anything on /miro.  As a consequence, "more" or "vi" of anything
  7280. on /miro loses the first few bytes of the file.  The data lost is
  7281. from when the program reads in an exec header to check if the file
  7282. is executable and then fseeks to the beginning to read in the file.
  7283. Since the fseek doesn't work, 76 bytes are lost on a ds3100 or 32 on a sun.
  7284.  
  7285.  
  7286.  
  7287.  
  7288. 1176.
  7289. Date: Thu, 26 Apr 90 08:38:18 PDT
  7290. From: ouster (John Ousterhout)
  7291. Subject: More corruption
  7292.  
  7293. /sprite/guests/stolcke/miginfo/loadavg_c/sun3.md/md.mk ended up with a
  7294. piece of a mail message from Patterson, sent late yesterday afternoon.
  7295.  
  7296.     mint-6# fsindex -dev rxy0 -part g md.mk
  7297.     md.mk                Desc 26908 size 860 kbytes 1 version
  7298.            0:   222429   -1  * 1 frag(s) offset 1
  7299.     md.mk                1 blocks 1 seeks
  7300.  
  7301. /sprite/users/eklee/old2/old/raid.sim/sun3.md/cont.o ended up with
  7302. a piece of a mail message from Brent, sent late yesterday afternoon.
  7303.  
  7304.     mint-9# fsindex -dev rxy0 -part g cont.o
  7305.     cont.o               Desc 6364 size 9704 kbytes 10 version
  7306.            0:   287504   -1  *
  7307.            1:   287512    8 
  7308.            2:   175312  -112200  * 2 frag(s) offset 0
  7309.     cont.o               3 blocks 2 seeks
  7310.  
  7311.  
  7312.  
  7313.  
  7314. 1177.
  7315. Date: Thu, 26 Apr 90 08:47:54 PDT
  7316. From: ouster (John Ousterhout)
  7317. Subject: More on corruption
  7318.  
  7319. I did some more analysis on the two corrupted files from yesterday,
  7320. and found that in both cases the corrupted blocks were on the free
  7321. list as well as in the corrupted files (I deleted the files and got
  7322. "FsdmFragFree: block not free" messages;  the message is a bit
  7323. confusing, but means the blocks were already free at the time of
  7324. the free op).  So this implies that the problem is one of disk
  7325. allocation and not a case of a buggy disk driver accidentally
  7326. writing the wrong place on disk.
  7327.  
  7328.  
  7329.  
  7330. 1178.
  7331. Date: Thu, 26 Apr 90 09:50:41 -0700
  7332. From: casotto@canova.Berkeley.EDU (Andrea Casotto)
  7333. Subject: CAnnot login
  7334.  
  7335. It looks like .files in my home directory are unreadable
  7336. or damaged.
  7337.  
  7338. Try this on gluttony or crackle:
  7339. % cd ~casotto
  7340. % ls -al
  7341. .....
  7342.  
  7343. ls -al in my home directory hangs forever.
  7344. (Plain ls works).
  7345.  
  7346. Everything was normal yesterday until about 3 pm.
  7347.  
  7348.  
  7349.  
  7350.  
  7351. 1179.
  7352. Date: Thu, 26 Apr 90 11:50:16 PDT
  7353. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  7354. Subject: results from debugging allspice
  7355.  
  7356.  
  7357. Evidently allspice was waiting on a consistency callback to mustard
  7358. for the file "~casotto/.cshrc".  I guess mustard was hanging the
  7359. rpc.  Most of the rpc_servers on allspice were waiting for the
  7360. consistency callback to finish.  We put mustard into the debugger
  7361. and rebooted allspice.  That cleared up the wedged servers.
  7362. I debugged mustard but was unable to figure out what was wrong.
  7363. All of the servers were idle.  Both machines were running
  7364. 1.064.
  7365.  
  7366. Aren't consistency callbacks supposed to timeout after a minute or
  7367. so if the client hangs the rpc?  For whatever reason this didn't
  7368. happen.
  7369.  
  7370.  
  7371.  
  7372.  
  7373. 1180.
  7374. Date: 26 Apr 90 12:43:40 PDT (Thursday)
  7375. From: "Brent_B._Welch.PARC"@Xerox.COM
  7376. Subject: Re: results from debugging allspice
  7377.  
  7378. The RPC system still hangs forever if the other machine locks up.
  7379. It is quite easy to change the RPC code (Mary would know how)
  7380. so it aborts instead of hanging too long.  You have to be a little
  7381. careful, however, because some RPCs can take a long time for
  7382. a good reason.  Recall the behavior when Allspice is spending
  7383. all its time writing out its dirty list.  You could allow for
  7384. special-cases by adding a flag to Rpc_Call, perhaps, or passing
  7385. an upper bound on the time to wait.  Prefix broadcasts are already
  7386. special cased, although in a cruder way.
  7387.  
  7388.  
  7389.  
  7390.  
  7391. 1181.
  7392. Date: Thu, 26 Apr 90 14:04:54 PDT
  7393. From: mendel (Mendel Rosenblum)
  7394. Subject: /swap1 disk busy
  7395.  
  7396. I was wondering why with 80Megabytes of file cache the /swap1 disk was 
  7397. constantly being accessed.  In the file write procedure Fsio_FileWrite()
  7398. I saw the following comment after the cache write:
  7399.  
  7400.         if (writePtr->flags & FS_SWAP) {
  7401.             /*
  7402.              * While page-outs on the file server go to its cache, we
  7403.              * inform the cache that these pages are good canidicates
  7404.              * for replacement.
  7405.              */
  7406.             Fscache_BlocksUnneeded(streamPtr, savedOffset, savedLength, FALSE);
  7407.  
  7408.  
  7409. This puts client swap pages on the front of the server's LRU list which 
  7410. makes them the first blocks replaced when a block is needed.   This combined 
  7411. with migration's use of the server cache forces clients to page from the 
  7412. server's disk rather than the server's cache.  
  7413.  
  7414.  
  7415.  
  7416.  
  7417. 1182.
  7418. Date: Thu, 26 Apr 90 17:53:47 PDT
  7419. From: douglis (Fred Douglis)
  7420. Subject: another post-recovery crash
  7421.  
  7422. kvetching wedged right after allspice came back, with a garbage
  7423. pointer passed as a list header so a list_forall looped forever.
  7424.  
  7425.  
  7426.  
  7427.  
  7428. 1183.
  7429. Date: Fri, 27 Apr 90 11:38:26 PDT
  7430. From: Fred Douglis <douglis>
  7431. Subject: ds3100 bad libc
  7432.  
  7433. i got an error message during a compile when i was accidentally
  7434. linking with the libc.a in the library source area:
  7435.  
  7436. Object file format error in: /sprite/src/lib/c/ds3100.md/libc.a(`): bad file magic number
  7437.  
  7438. "ar tv" on that file generated:
  7439. ar: Error: phase error on umask.o
  7440.  
  7441. so, i'm just going to rebuild the C library from scratch.  a lot of it
  7442. hasn't been recompiled in many months.  
  7443.  
  7444.  
  7445.  
  7446.  
  7447. 1184.
  7448. Date: Sun, 29 Apr 90 17:02:35 PDT
  7449. From: ouster (John Ousterhout)
  7450. Subject: wall still hangs
  7451.  
  7452. Why is it that wall hangs every time when I run it?  I vaguely
  7453. remember some reason about a bogus rlogin device, but can't the
  7454. offending device simply be deleted?
  7455.  
  7456.  
  7457.  
  7458.  
  7459. 1185.
  7460. Date: Mon, 30 Apr 90 09:55:08 PDT
  7461. From: Fred Douglis <douglis>
  7462. Subject: Re: wall still hangs 
  7463.  
  7464. yes, it's a problem with an rlogind process being associated with
  7465. a /hosts/foo/rlogin* file but not actually responding to the pdev operations
  7466. on it.  unless pdev operations are more careful, or rpcs can be made
  7467. interruptable, then wall will hang on those.  it can't remove the file
  7468. because it's hung before it knows the file is bad.  i suppose i can change
  7469. wall to fork a child, wait for the child to exit, and timeout and remove the
  7470. file if the child doesn't return in a minute or so.  but this will still
  7471. generate many permanently wedged processes.
  7472.  
  7473.  
  7474.  
  7475.  
  7476. 1186.
  7477. Date: 30 Apr 90 10:13:50 PDT (Monday)
  7478. From: "Brent_B._Welch.PARC"@Xerox.COM
  7479. Subject: Re: wall still hangs
  7480.  
  7481. The pseudo-device client code can be more careful when opening
  7482. a pseudo-device.  The PDEV_SETUP state bit should be re-introduced.
  7483. Current the bug arises when a client catches a pseudo-device that
  7484. has not bee initialized by the server, but only partially opened.
  7485. The client waits (forever) for the server to start up.  Instead,
  7486. its open should fail.  Fix Fspdev_PseudoStreamIoOpen, or what
  7487. ever routine does the PDEV_OPEN request-response.
  7488.  
  7489.  
  7490.  
  7491.  
  7492. 1187.
  7493. Date: Mon, 30 Apr 90 14:23:08 PDT
  7494. From: hohmeyer (Michael E. Hohmeyer)
  7495. Subject: sprite crashes..
  7496.  
  7497. Greed has been crashing every other day or so with a 
  7498. "TLB LD miss" error. If anyone wants to investigate this
  7499. I can notify you the next time it happens.
  7500.  
  7501.  
  7502.  
  7503. 1188.
  7504. Date: Mon, 30 Apr 90 22:14:23 EDT
  7505. From: douglis@piquante.Berkeley.EDU (Fred Douglis)
  7506. Subject: damn sun4 binaries
  7507.  
  7508. still on oregano, of all places...
  7509.  
  7510. >From MAILER-DAEMON@sprite.Berkeley.EDU Mon Apr 30 19:11:40 1990
  7511. Received: from sprite.Berkeley.EDU (allspice.Berkeley.EDU) by ginger.Berkeley.EDU (4.1/1.41)
  7512.     id AA01089; Mon, 30 Apr 90 19:11:38 PDT
  7513. Received: from rosemary.Berkeley.EDU by sprite.Berkeley.EDU (5.59/1.29)
  7514.     id AA331332; Mon, 30 Apr 90 19:11:08 PDT
  7515. Date: Mon, 30 Apr 90 19:11:08 PDT
  7516. From: MAILER-DAEMON@sprite.Berkeley.EDU (Mail Delivery Subsystem)
  7517. Subject: Returned mail: Service unavailable
  7518. Message-Id: <9005010211.AA331332@sprite.Berkeley.EDU>
  7519. To: owner-sprite-log@sprite.Berkeley.EDU
  7520. Status: R
  7521.  
  7522.    ----- Transcript of session follows -----
  7523. 451 Cannot exec /sprite/cmds/sh: no such file or directory
  7524. 554 "|/users/sprite/cmds.gen/logger sprite log 'Sprite Log'"... Service unavailable
  7525. 451 Cannot exec /sprite/cmds/sh: no such file or directory
  7526. 554 "|/users/sprite/cmds.gen/logger sprite log 'Sprite Log'"... Service unavailable
  7527. mail: mail: /tmp: cannot open for writing
  7528.  
  7529.    ----- Unsent message follows -----
  7530. Received: from rosemary.Berkeley.EDU by sprite.Berkeley.EDU (5.59/1.29)
  7531.     id AA331329; Mon, 30 Apr 90 19:11:08 PDT
  7532. Received: by rosemary.Berkeley.EDU (4.1/1.41)
  7533.     id AA00953; Mon, 30 Apr 90 19:11:22 PDT
  7534. Date: Mon, 30 Apr 90 19:11:22 PDT
  7535. From: douglis@rosemary.Berkeley.EDU (Fred Douglis)
  7536. Message-Id: <9005010211.AA00953@rosemary.Berkeley.EDU>
  7537. To: bugs@sprite.Berkeley.EDU
  7538. Subject: oregano out of memory
  7539.  
  7540. i tried to dump its memory stats but as soon as I called Mem_PrintStats
  7541. it froze up completely and I could no longer get it in the debugger.
  7542. Perhaps I needed to call some internal print routine, and it deadlocked
  7543. on a monitor lock?
  7544.  
  7545.  
  7546.  
  7547.  
  7548.  
  7549. 1189.
  7550. Date: Mon, 30 Apr 90 23:36:42 PDT
  7551. From: pmchen (Peter M. Chen)
  7552. Subject: ps hangs on gluttony
  7553.  
  7554. I think there's a process on gluttony which is killing ps.  I don't
  7555. know which one it is, though.  ps -au dies after printing out a
  7556. number of processes.  ps (as pmchen) finishes fine, as does
  7557. ps as johnw, as casotto, and as bsmith.
  7558.  
  7559.  
  7560.  
  7561.  
  7562. 1190.
  7563. Date: Tue, 01 May 90 12:19:21 PDT
  7564. From: rab (Robert A. Bruce)
  7565. Subject: dumps
  7566.  
  7567. The dump failed yesterday with a write error.
  7568.  
  7569. Warning: Exabyte 8200 at SCSI3#0 Target 5 LUN 0 error: media error - info bytes 0x0 0x0 0x0 0x12
  7570. Warning: Exabyte maximum write retries attempted
  7571. Warning: Exabyte 8200 at SCSI3#0 Target 5 LUN 0 error: media error - info bytes 0x0 0x0 0x0 0x13
  7572. Exabyte File Mark Error
  7573.  
  7574.  
  7575.  
  7576.  
  7577. 1191.
  7578. Date: 1 May 90 11:08:07 PDT (Tuesday)
  7579. From: "Brent_B._Welch.PARC"@Xerox.COM
  7580. Subject: distribution bugs
  7581.  
  7582. Here are some more problems I've turned up in the
  7583. Sprite distribution.
  7584.  
  7585. kernel bugs:  As I already mentioned, I fixed the
  7586. Xylogics driver regarding the byte-ording of the
  7587. low-level sector header information.  This is in the
  7588. uninstalled dev code.  I also added Fsio_BootTimeTtyOpen
  7589. to fsDevice.c.  This goes with a fix in devTty.c regarding
  7590. FS notify tokens.  Finally, this is called from mainInit.c,
  7591. but this call is only in main.brent/sun3.md/mainInit.c.  I think someone
  7592. at
  7593. Berkeley should shepard these kernel changes in.   I've
  7594. only tested it on a Sun3, but the tty stuff is all machine
  7595. independent anyway.  This fix enables the L1 key before
  7596. the "idling for 5 seconds" message.
  7597.  
  7598. nfsmount bug.  Actually it is in the pdev.c library package.
  7599. Any SET_ATTR call and those GET_ATTR calls that returned
  7600. an error status would clean the selectBits for the open stream.
  7601. This causes subsequent I/O on the stream to block.  I've fixed
  7602. the source (I found the bug today), but lost my network
  7603. connection as I was checking in pdev.c.
  7604.  
  7605. rpcgen.  This is the Sun RPC stub compiler.  It no longer
  7606. likes the mount.x and nfs_prot.x specification files.  Has
  7607. someone installed a new rpcgen?  These .x files are missing
  7608. from the distribution, too.  I've finally gotten a fixed nfsmount,
  7609. but the thing won't really recompile from scratch because of rpcgen.
  7610. I had to copy intermediate files from Berkely and touch things...
  7611.  
  7612. /sprite/main/lib.fmt/c is missing.  This directory needs to exist
  7613. in order to save formatted man pages of the C library.
  7614.  
  7615. The -lc_g library doesn't exist.  It is a link into the source area
  7616. and there is no target file.
  7617.  
  7618. Oh, perhaps the most crucial bug concerns the mount table.
  7619. It is not documented, but it is crucial that the partition that
  7620. the kernel mounts during bootstrap have group/pass "root".
  7621. This is the magic thing that causes your machine to reboot
  7622. after fixing errors in the bootstrapped partition.   The example
  7623. mount table neither contains this or documents it.  Also,
  7624. the mount table documents "passes" instead of "groups".
  7625. Fsattach now uses disk groups instead of passes. I don't
  7626. think the man page for fsattach documents this either.
  7627.  
  7628.  
  7629.  
  7630.  
  7631.  
  7632. 1192.
  7633. Date: Tue, 01 May 90 12:31:35 PDT
  7634. From: Fred Douglis <douglis>
  7635. Subject: huge stack killed allspice
  7636.  
  7637. mendel looked into why allspice crashed before.  the reason why the
  7638. connection died was because your check-in of pdev.c went amok.  it had
  7639. a stack of 241MB, and due to some bug regarding preemption, other
  7640. processes were never getting to run while it was servicing page faults
  7641. for the ci process.
  7642.  
  7643. when allspice came back it died with the same cache writeback problem
  7644. during client recovery, and it had to be rebooted again. it was down
  7645. for a total of almost 2 hours.
  7646.  
  7647.  
  7648.  
  7649.  
  7650.  
  7651. 1193.
  7652. Date: Tue, 1 May 90 16:18:28 PDT
  7653. From: mendel (Mendel Rosenblum)
  7654. Subject: SCSI DMA error is back
  7655.  
  7656. Allspice got one of those SCSI DMA errors on disk rsd31c. It was reading 
  7657. a file descriptor block during the fscheck.  
  7658.  
  7659.  
  7660.  
  7661.  
  7662. 1194.
  7663. Date: Tue, 1 May 90 17:22:38 PDT
  7664. From: bsmith (Brian Smith)
  7665. Subject: File lock bug
  7666.  
  7667. flock() is slightly broken, but the fix is easy.  When you try
  7668. to unlock the file, you have to pass, in addition to the LOCK_UN
  7669. flag, an or'ed in LOCK_EX, LOCK_SH or LOCK_NB flag.  Try it out
  7670. with something like:
  7671.  
  7672. main ()
  7673.  
  7674.     {
  7675.     FILE *f;
  7676.  
  7677.     f = fopen ("foo", "r");
  7678.     while (1)
  7679.     {
  7680.     flock (fileno(f), LOCK_EX);
  7681.     flock (fileno(f), LOCK_UN);
  7682.     printf (".\n");
  7683.     }
  7684.     }
  7685.  
  7686. This never prints anything on the screen.  If you change 
  7687.     flock (fileno(f), LOCK_UN);
  7688. to
  7689.     flock (fileno(f), LOCK_UN|LOCK_EX);
  7690. though, it runs fine.
  7691.  
  7692.  
  7693.  
  7694.  
  7695. 1195.
  7696. Date: Tue, 1 May 90 22:55:16 PDT
  7697. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  7698. Subject: bad cache block
  7699.  
  7700. This evening the /sprite/src/ directory appeared to be empty.
  7701. There was something wrong with the cache block.  I flushed
  7702. allspice's cache and the problem went away.  Brent reported this
  7703. bug before.  I'm not sure if this is a new bug, or if it is
  7704. just different symptoms of another bug (perhaps the file-trashing bug?).
  7705. Next time it occurs we should debug the machine, although it isn't
  7706. easy to detect.   The symptom is missing files, but there are lots
  7707. of reasons why files may be missing.
  7708.  
  7709.  
  7710.  
  7711.  
  7712.  
  7713. 1196.
  7714. Date: Wed, 2 May 90 09:09:16 PDT
  7715. From: mendel (Mendel Rosenblum)
  7716. Subject: rpn or tx bug
  7717.  
  7718. When you exit rpn in a tx window on a sun4 the error message 
  7719. "Couldn't find variable "ti"" is printed in the tx error message window 
  7720. and the window is left in a funny state where it doesn't scroll correctly.
  7721.  
  7722.  
  7723.  
  7724.  
  7725. 1197.
  7726. Date: Thu, 3 May 90 09:18:09 PDT
  7727. From: brent (Brent Welch)
  7728. Subject: library sources missing from distribution
  7729.  
  7730. I have the following library sources:
  7731. c    cmd    curses    dbm    include    l    m    monitorClient    mxx net
  7732. I do not have sources for:
  7733. acu    bootBin    g++    memtrace    pattern    ps    sunrpc    sx    tcl
  7734. termlib    test    util
  7735.  
  7736. (This doesn't count X libraries, of course)
  7737.  
  7738. I need to fix something in sunrpc, for example, so I'll have to suck
  7739. up the sources for that.  I've also been using memtrace, but had
  7740. to rlogin to Berkeley to remember what the routines were.
  7741.  
  7742.  
  7743.  
  7744.  
  7745. 1198.
  7746. Date: Thu, 3 May 90 10:03:53 PDT
  7747. From: mendel (Mendel Rosenblum)
  7748. Subject: allspice file cache problem
  7749.  
  7750. The directory /sprite/src/kernel got corrupted in allspice's cache.  I did
  7751. a "fscmd -f" and it was re-read from disk correctly.  The cached copy of the
  7752. attributes contained:
  7753. allspice% od -X /sprite/src/kernel
  7754. 0000000  31302034 30203130 39302037 33302031
  7755. 0000020  300a3320 34352031 38302036 34302032
  7756. 0000040  36302036 36302034 20310a36 20343820
  7757. ...
  7758. 006340  31302031 35302030 20310a33 20352035
  7759. 0006360  30203530 20313730 20313430 20302031
  7760. 0006400  0a000000 00000000 00000000 00000000
  7761. 0006420  00000000 00000000 00000000 00000000
  7762. *
  7763. 0010000
  7764. allspice% strings /sprite/src/kernel
  7765. 10 40 1090 730 10
  7766. 3 45 180 640 260 660 4 1
  7767. ...
  7768. allspice% 
  7769.  
  7770.  
  7771.  
  7772. 1199.
  7773. Date: Thu, 3 May 90 23:21:48 PDT
  7774. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  7775. Subject: lost file
  7776.  
  7777. The version of netRoute.c that I've been editing for the last couple
  7778. of weeks is now empty.  This does not make me very happy.  I guess the
  7779. file was in piracy's cache when the machine crashed.  I do have an
  7780. Mx log that goes back to yesterday, and the file was dumped last
  7781. evening.  From this I hope to get most of the changes back.
  7782. I was hoping to apply the log to the RCS'd version of netRoute.c.
  7783. This doesn't work for a number of reasons.  First of all, there are
  7784. a bunch of cryptic numbers at the top of the log file which mx
  7785. uses to determine whether the log belongs to this particular file.
  7786. If it doesn't then it silently ignores your request to use the log.
  7787. Once I managed to convince it to use the log it gave me
  7788. "Mx_ReplaceBytes:  bad range." and went into the debugger.
  7789. Is there anyway to apply the log to the file, even if the log
  7790. was started on a slightly different file?  I'd be happy just to
  7791. get half of my changes back.
  7792.  
  7793.  
  7794.  
  7795.  
  7796. 1200.
  7797. Date: Fri, 04 May 90 12:54:13 PDT
  7798. From: Fred Douglis <douglis>
  7799. Subject: can't install sun libs from ds3100
  7800.  
  7801. it generates a bogus archive member when it does the ranlib.
  7802.  
  7803.  
  7804.  
  7805.  
  7806. 1201.
  7807. Date: Fri, 4 May 90 15:07:54 PDT
  7808. From: mendel (Mendel Rosenblum)
  7809. Subject: Re: tftpd vs inetd?
  7810.  
  7811. The sprite tftpd is not implemented as a server that can be started by inetd.  
  7812. It should be started in bootcmds and not be in the inetd.conf file.
  7813.  
  7814.  
  7815.  
  7816.  
  7817. 1202.
  7818. Date: Fri, 04 May 90 17:17:05 PDT
  7819. From: Fred Douglis <douglis>
  7820. Subject: X server went amok
  7821.  
  7822. a few minutes ago i killed ann's X server, which had grown to 40 MB
  7823. and was causing allspice to hang up.  this message is intended to
  7824. serve two purposes: bring up the question of why ann's server keeps
  7825. going so crazy, and bring up the question of what we can do about
  7826. allspice hanging up when a process runs amok.  i know we've discussed
  7827. this from time to time but it doesn't seem we've resolved anything
  7828. except that ken's new "plumbing" will fix it eventually.  i still
  7829. think we should install a stop-gap measure -- either limit process
  7830. sizes, or catch processes that are thrashing, or something.  
  7831.  
  7832. by the way, mendel pointed out that when i removed the special "put on
  7833. front of LRU list" code for swap pages, i only caught reads and not
  7834. writes.  the writes are really the problem, since they make writes go
  7835. straight through to disk.  perhaps once the correct fix makes it to
  7836. allspice, allspice's cache will be more effective in guarding against
  7837. huge processes. or maybe it will just take longer to go crazy, in
  7838. which case we need to catch the processes that are doing it.  this fix
  7839. is not yet in any kernels but is in mendel's copy of the file system.
  7840.  
  7841.  
  7842.  
  7843.  
  7844. 1203.
  7845. Date: Fri, 4 May 90 22:36:59 PDT
  7846. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  7847. Subject: migration / file bug
  7848.  
  7849. I'm currently running the shell that migrates my jobs.  If I migrate
  7850. a job whose stdout is redirected into a file, then the file will
  7851. have zero size on my machine, but will have the correct size and
  7852. contents on the machine that was migrated to. This happens on both
  7853. hijack and parsley.
  7854.  
  7855.  
  7856.  
  7857.  
  7858. 1204.
  7859. Date: Fri, 4 May 90 22:39:08 PDT
  7860. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  7861. Subject: another migration bug
  7862.  
  7863. If I migrate a job that is writing to a file after it is running then
  7864. the file size does not change on my machine.  For example, I migrate
  7865. the ld of a kernel after it has started.  The file size on my machine
  7866. will be whatever it was when the job was migrated.  The other machines
  7867. see the correct size.  This is an old bug that I thought had been
  7868. fixed.
  7869.  
  7870.  
  7871.  
  7872.  
  7873. 1205.
  7874. Date: Fri, 04 May 90 23:56:53 PDT
  7875. From: Fred Douglis <douglis>
  7876. Subject: Re: another migration bug 
  7877.  
  7878. i think this was possibly fixed and then reintroduced.  i discovered
  7879. it a couple of days ago when testing different scenarios for
  7880. cache flushing during migration. it's because the old attributes
  7881. for the file wouldn't get invalidated when it got migrated.
  7882. this is fixed in the latest fsconsist.
  7883.  
  7884.  
  7885.  
  7886.  
  7887. 1206.
  7888. Date: Mon, 07 May 90 10:06:15 PDT
  7889. From: rab (Robert A. Bruce)
  7890. Subject: dumps
  7891.  
  7892. The dumps did not complete last night.
  7893. When I came in this morning murder was
  7894. comatose.  It won't go into the debugger
  7895. and it doesn't respond to ping or kmsg.
  7896.  
  7897.  
  7898.  
  7899.  
  7900. 1207.
  7901. Date: Mon, 7 May 90 11:46:02 PDT
  7902. From: mendel (Mendel Rosenblum)
  7903. Subject: allspice crash at 11:00
  7904.  
  7905. Allspice crashed with a crash write-back error.  The memory error register 
  7906. contained:
  7907.     0xc4     Write back invalid translation. (During a write back bus
  7908.         cycle an invalid transaltion exception occured.)
  7909.         Context number 0.
  7910.  
  7911. The memory error address register contained: 0xfff113f0. This is in the
  7912. kernel DVMA address space. 
  7913.  
  7914. I was able to continue the machine.
  7915.  
  7916.  
  7917.  
  7918. 1208.
  7919. Date: Mon, 07 May 90 14:51:12 PDT
  7920. From: Fred Douglis <douglis>
  7921. Subject: major fs screw-ups
  7922.  
  7923. i installed a new migd this morning after changing it per fubar's comment.
  7924. when i rebooted my machine this afternoon it died in bootcmds when 
  7925. migd hit a segmentation violation.  turned out migd was only 65K long.  i removed
  7926. it and ran update again from the source area.  still hit a segv. this time
  7927. the file was normal length, but rather than containing the data i just copied
  7928. it contained some random garbage, especially mail from ouster & mgbaker's
  7929. spool files!  even more oddly, when we looked at this file a little while later
  7930. it contained different data.  must be getting rewritten even as we speak. the
  7931. file is /sprite/trashed/migd.
  7932.  
  7933.  
  7934.  
  7935.  
  7936. 1209.
  7937. Date: Mon, 7 May 90 22:43:56 PDT
  7938. From: culler (David Culler)
  7939. Subject: rlogin to ds3100 broken?
  7940.  
  7941. Lately I've found that I cannot rlogin from ernie to cardamom, but I
  7942. can to Sage.  I did this from home and came in later to find
  7943. cardamom was o.k.  I could ping it from ernie even when I could not
  7944. rlogin.  I did not receive an error message or a timeout.  Rlogin
  7945. would just hang.
  7946.  
  7947.  
  7948.  
  7949.  
  7950. 1210.
  7951. Date: Mon, 7 May 90 23:58:40 PDT
  7952. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  7953. Subject: allspice
  7954.  
  7955. I had to debug and reboot allspice this evening.  /sprite/src/kernel
  7956. had become locked.  I wasn't able to figure out why that file was
  7957. locked, but I did find that there were two processes deadlocked
  7958. over the file "proc.h".  One of them was in Fsconsist_Close and
  7959. was waiting on the consistency monitor lock.  It had locked
  7960. the file handle in Fsrmt_RpcClose when it called the client
  7961. verify routine (I think this is true but I could be wrong because
  7962. those function tables always confuse me).  The other process was
  7963. trying to lock the handle in Fsutil_HandleLockHdr, and had
  7964. grabbed the consistency monitor lock in Fsconsist_GetClientAttrs.
  7965.  
  7966.  
  7967.  
  7968.  
  7969.  
  7970. 1211.
  7971. Date: Tue, 8 May 90 11:59:55 PDT
  7972. From: elm (ethan miller)
  7973. Subject: small problem in mig
  7974.  
  7975. When using the -h option, the -b option doesn't work.  This is from
  7976. my sun4c (terrorism) to any other sun4c (I tried tyranny and sedition).
  7977. When I specified it w/o the -h option, it worked fine to tyranny.  I'd
  7978. like to use this because, in this particular case, one machine that
  7979. was a target for migration was about to be rebooted, so I wanted
  7980. to run the process elsewhere.
  7981.  
  7982.  
  7983.  
  7984.  
  7985. 1212.
  7986. Date: 7 May 90 17:39:07 PDT (Monday)
  7987. From: "Brent_B._Welch.PARC"@Xerox.COM
  7988. Subject: Gremlin fonts
  7989.  
  7990. When I try to run gremlin here at PARC I get
  7991. a "Couldn't get font file" error.  I don't seem
  7992. to have the sources (distribution error?), so
  7993. I can't figure this out right away.  Does anyone
  7994. know where gremlin expects to find its fonts?
  7995. Under my X11R3/lib/fonts I see
  7996. 100dpi    75dpi    local    misc    xproof
  7997.  
  7998.  
  7999.  
  8000.  
  8001. 1213.
  8002. Date: 8 May 90 12:03:00 PDT (Tuesday)
  8003. From: "Brent_B._Welch.PARC"@Xerox.COM
  8004. Subject: Re: allspice
  8005.  
  8006. First, if proc.h is somewhere under /sprite/src/kernel, then
  8007. that directory can become locked due to a chain-reaction.
  8008. Directory scanning grabs HandleLocks on the parent and
  8009. the child as it descends...  Now, the deadlock is interesting!
  8010. Ahh, it is even described in Fsconsist_GetClientAttrs:
  8011.  
  8012. Client 1 does a get attributes about the same time Client 2 does a
  8013. close.
  8014. Client 2 has its handle locked during the close, but we will
  8015. be calling back to get its attributes.  Our callback (on behalf of
  8016. Client 1)
  8017. can't start until Client 2 unlocks its handle.  But Client 2 won't
  8018. unlock
  8019. its' handle until its close finishes.  The close can't finish because
  8020. Client 1 is blocked on the locked handle.
  8021.  
  8022. To guard against this, the handle is unlocked inside
  8023. Fsconsist_GetClientAttrs.
  8024. The problem is that the handle is re-locked just before exiting, and
  8025. this is
  8026. still inside the monitor lock.  Its a small window, but it was found.
  8027.  
  8028. I think this is a general problem with the cache consistency lock.  The
  8029. handle can't be locked during cache consistency because unrelated open,
  8030. close, read, write operations need to take the handle lock.  I had coded
  8031. things so that you
  8032. entered the cache consistency monitor with the handle locked, and those
  8033. routines released the handle lock during the callbacks and then
  8034. reaquired
  8035. it before releasing the monitor lock:
  8036.  
  8037. External routine locks handle
  8038. Enter coche consistency monitor
  8039. release handle lock
  8040. do consistency stuff, including callbacks.
  8041. lock handle
  8042. release monitor lock.
  8043.  
  8044. It is the order of the last two steps that caused the deadlock.
  8045. I think you can argue that  this structure only prevents
  8046. deadlock with operations that are triggered by a callback
  8047. (which was my initial concern), but it doesn't prevent
  8048. deadlock with unrelated actions.  A better structure,
  8049. perhaps, would be to never enter the cache consistency
  8050. monitor with the handle locked.  Processes could "slip by"
  8051. each other at the point of monitor entry, but I still can't
  8052. think of a problem that would cause.  All important
  8053. state changes about consistency, anyway, are done under
  8054. the monitor.  The handle lock is used during directory scanning
  8055. and as a default way to synchronize over an object.
  8056. A handle can't go away until after it has been "released",
  8057. so unlocking it doesn't pose that problem either.
  8058.  
  8059. In short, someone at Berkeley should spen a little time
  8060. familiarizing themselves with the use of the cache consistency
  8061. routines, and see if they can't find a whole in  my argument.
  8062. The current structure is probably over-conservative.  I know that
  8063. I always went with more locking at first because I couldn't 
  8064. guess at all the potential races.  The penalty is deadlock, however.
  8065.  
  8066.  
  8067.  
  8068.  
  8069. 1214.
  8070. Date: Wed, 9 May 90 10:04:04 PDT
  8071. From: ouster (John Ousterhout)
  8072. Subject: Another corrupted file
  8073.  
  8074. This happened a few days ago.  The file is /sprite/users/eklee/old2/bin/mkcc:
  8075.  
  8076. mint: ls -l mkcc
  8077. -rwxr-xr-x  1 eklee        1359 Feb 21 11:32 mkcc*
  8078.  
  8079. mint: /sprite/admin.sun3/fsindex -dev rxy0 -part g mkcc
  8080. mkcc                 Desc 26481 size 1359 kbytes 2 version
  8081.            0:    69104   -1  * 2 frag(s) offset 0
  8082. mkcc                 1 blocks 1 seeks
  8083.  
  8084. Fsblockcheck didn't turn up any other (current) uses of the trashed block.
  8085. The block contained a piece of a mail message to Jim Hunt.
  8086.  
  8087.  
  8088.  
  8089.  
  8090. 1215.
  8091. Date: Wed, 9 May 90 13:22:46 PDT
  8092. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  8093. Subject: common lisp, getwd, and unix compatiblity 
  8094.  
  8095. One big obstacle to our quest for binary compatiblity is our handling
  8096. of remote links.  Unix binaries do not understand them.  In
  8097. particular, getwd() computes the current directory by working its
  8098. way up to the root.  It does this by 'stat'ing the current directory
  8099. then opening the parent directory and looking for an entry with
  8100. the same device and inode number.  This algorithm doesn't work on
  8101. Sprite when it gets to the top of a domain.  It will stat the
  8102. directory at the top of the domain, then open the parent and see
  8103. (and ignore) the remote link.  I'm not sure how to fix this, but
  8104. if we truly want to be binary compatible then we better hide remote
  8105. links from unix programs.
  8106.  
  8107. If we want unix programs to have any performance then we better
  8108. fix it so 'stat'ing a remote link does not always cause a broadcast.
  8109.  
  8110. Both of these items are old news to some of you, but it seemed
  8111. appropriate to bring it up again.
  8112.  
  8113. Dave, this is why common lisp does not run correctly.
  8114.  
  8115.  
  8116.  
  8117.  
  8118. 1216.
  8119. Date: Wed, 9 May 90 13:25:26 PDT
  8120. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  8121. Subject: addendum
  8122.  
  8123. I might add to that last message that the Sprite version of getwd()
  8124. uses the prefix table and thereby avoids 'stat'ing everything
  8125. in the root directory.  We may want to retain this functionality.
  8126.  
  8127.  
  8128.  
  8129.  
  8130. 1217.
  8131. Date: Wed, 9 May 90 13:43:47 PDT
  8132. From: mendel (Mendel Rosenblum)
  8133. Subject: Memory usage VM verse file cache
  8134.  
  8135. The file system refuses to give blocks to the VM system when all the blocks
  8136. in the cache are dirty. This means that if you write a large file so that
  8137. all the blocks in the cache are dirty and then start a large process the
  8138. process will thrash.  If you continue to write the file the cache will stay
  8139. dirty and the process will continue to thrash.  The problem is even worse on
  8140. machines with a pagesize greater than 4K.  In these systems, all the blocks
  8141. on a page must be clean before the page can be returned to the file system.
  8142. This means that the problem can happen well before the entire cache becomes
  8143. dirty.
  8144.  
  8145.  
  8146.  
  8147.  
  8148. 1218.
  8149. Date: Thu, 10 May 90 08:52:50 PDT
  8150. From: ouster (John Ousterhout)
  8151. Subject: More file corruptions
  8152.  
  8153. The checksummer at script somehow got lost, so it didn't run for
  8154. a few days.  I restarted it yesterday, and last night it found
  8155. two more errors.  Both these files seem moderately important;  Bob,
  8156. can you restore them from dump tape?
  8157.  
  8158. 1. /sprite/lib/ditroff/ds3100.md/devsun/nb.orig was corrupted with
  8159. what seems to be information from the migration daemon (?).  Here's
  8160. a sample of what was at the tail end of the file:
  8161.  
  8162.     ContactGlobal - completed successfully
  8163.     Error 32 writing to global daemon: broken pipe.
  8164.     ContactGlobal - Thu May  3 22:10:41 1990
  8165.  
  8166.     ContactGlobal - completed successfully
  8167.     Error 32 writing to global daemon: broken pipe.
  8168.     ContactGlobal - Fri May  4 08:01:41 1990
  8169.  
  8170. Here's fsindex and fsblockcheck information for the file:
  8171.  
  8172.     mint-7# fsindex -dev rxy0 -part g nb.orig
  8173.     nb.orig              Desc 30250 size 1528 kbytes 2 version
  8174.            0:   322676   -1  * 2 frag(s) offset 0
  8175.     nb.orig              1 blocks 1 seeks
  8176.     mint-8# fsblockcheck -D rxy0 -P g 322676
  8177.     Checking block 322676
  8178.     Block 322676: Start-frag=0 Num-frags=2 FD=30250
  8179.     Block 322677: Start-frag=1 Num-frags=2 FD=40603
  8180.  
  8181. Note that this time the block is actually present in two files at
  8182. the same time.  Note that the blocks only OVERLAP: they don't coincide.
  8183. I also found the other file:  it's /sprite/admin/migd/raid1.Berkeley.EDU.log.
  8184. Here's fsindex information for it:
  8185.  
  8186.     mint-20# fsindex -dev rxy0 -part g raid1*
  8187.     raid1.Berkeley.EDU.log Desc 40603 size 13469 kbytes 14 version
  8188.            0:   166932   -1  *
  8189.            1:   190660  23728  *
  8190.            2:   190460  -200  *
  8191.            3:   322677  132217  * 2 frag(s) offset 1
  8192.     raid1.Berkeley.EDU.log 4 blocks 4 seeks
  8193.  
  8194. In order to clean up the free list I copied the migd log onto itself
  8195. and deleted the nb.orig file.
  8196.  
  8197. 2. /sprite/cmds.sun3/Pnews has binary-looking junk at the end of
  8198. an otherwise textual file.  I can't make any sense of the binary
  8199. junk.  Here's what fsindex and fsblockcheck have to say:
  8200.  
  8201.     mint-31# fsindex -dev rxy0 -part g Pnews
  8202.     Pnews                Desc 84816 size 9786 kbytes 10 version
  8203.            0:    75932   -1  *
  8204.            1:    75960   28 
  8205.            2:   222640  146680  * 2 frag(s) offset 0
  8206.     Pnews                3 blocks 2 seeks
  8207.     mint-32# fsblockcheck -D rxy0 -P g 222640
  8208.     Checking block 222640
  8209.     Block 222641: Start-frag=1 Num-frags=2 FD=57131
  8210.     Block 222640: Start-frag=0 Num-frags=2 FD=84816
  8211.  
  8212. Hmmm, this one's in two files too, with the same kind of overlap.  In
  8213. this case the other file is /sprite/lib/fonts/pk/cmmib10.58pk.  But this
  8214. is very weird:  BOTH FILES ARE OLD!!!  The fonts file dates from 1987 and
  8215. the Pnews file from 1989.  Here's the fsindex information:
  8216.  
  8217.     mint-36# fsindex -dev rxy0 -part g cmmib10.58pk
  8218.     cmmib10.58pk         Desc 57131 size 1840 kbytes 2 version
  8219.            0:   222641   -1  * 2 frag(s) offset 1
  8220.     cmmib10.58pk         1 blocks 1 seeks
  8221.  
  8222. This corruption seems to contradict the theory that the problem is in
  8223. the block allocator.  I'm now beginning to wonder if perhaps file
  8224. descriptors are getting corrupted in memory and then written back to
  8225. disk.
  8226.  
  8227.  
  8228.  
  8229. 1219.
  8230. Date: Thu, 10 May 90 21:35:41 PDT
  8231. From: Fred Douglis <douglis>
  8232. Subject: rpc forgot reply
  8233.  
  8234. i saw a flurry of messages like the following:
  8235.  
  8236. RpcResend: RPC 23, client 20, RPC seq # 212e84, forgot reply?
  8237.  
  8238.  
  8239. can anyone tell me what this means and whether i should pay attention
  8240. to it?  i presume it happened during a migration to parsley (host 20).
  8241.  
  8242.  
  8243.  
  8244.  
  8245. 1220.
  8246. Date: 11 May 90 13:54:48 PDT (Friday)
  8247. From: "Brent_B._Welch.PARC"@Xerox.COM
  8248. Subject: Re: rpc forgot reply
  8249.  
  8250. The comments in RpcResend aren't that great.  The "forgot reply"
  8251. message really means that a client requested a re-send of a
  8252. reply, but the server process had started on a different request.
  8253. This could happen if the server somehow couldn't get through
  8254. to the client in order to explicitly close a channel, in which case
  8255. it gives up and closes the channel anyway.  After that, the client
  8256. may resend and catch the server in this funny state where it
  8257. doesn't have a reply to resend.
  8258.  
  8259.  
  8260.  
  8261.  
  8262. 1221.
  8263. Date: Fri, 11 May 90 14:52:56 PDT
  8264. From: Fred Douglis <douglis>
  8265. Subject: nfsmount disappears
  8266.  
  8267. since /miro/* has been set up, seth has complained 2-3 times that the
  8268. nfsmount daemons have disappeared from bribery.  gone without a
  8269. trace... 
  8270.  
  8271.  
  8272.  
  8273.  
  8274. 1222.
  8275. Date: Fri, 11 May 90 17:04:23 PDT
  8276. From: shirriff (Ken Shirriff)
  8277. Subject: crash in VmListInsert
  8278.  
  8279. Mustard crashed in VmListInsert, runinng the "forstall" kernel.
  8280. The problem seemed to be that a process was migrating and a page
  8281. was being freed, but when the page was added to the free list,
  8282. VmListInsert complained "Inserting element twice".
  8283. Since this wasn't a normal Sprite kernel, this can probably be
  8284. classified as a random crash.
  8285.  
  8286.  
  8287.  
  8288. 1223.
  8289. Date: Fri, 11 May 90 17:51:44 PDT
  8290. From: Fred Douglis <douglis>
  8291. Subject: mint recovery hiccup
  8292.  
  8293. mint was in chaos for about 10-15 minutes late this afternoon after
  8294. mustard rebooted.  things started timing out. then, for some reason
  8295. mint was spending so much time printing "dropping regular open during
  8296. recovery" that it wasn't making much progress on recovery.  It finally
  8297. cleared up; we're not sure if doing "L1-N" to reset its net interface
  8298. had anything to do with this or not.
  8299.  
  8300. by the way, "/" is filling up due to the huge syslogs people are
  8301. writing to /hosts/%HOST/syslog.out.  i propose that we use
  8302. /sprite/syslogs/%HOST until we move to /newroot.
  8303.  
  8304.  
  8305.  
  8306.  
  8307. 1224.
  8308. Date: Sat, 12 May 90 09:39:15 PDT
  8309. From: douglis@rosemary.Berkeley.EDU (Fred Douglis)
  8310. Subject: mint locked up
  8311.  
  8312. tons of ready processes.  the one running process was not at a reasonable
  8313. point --- either the sources were different or the stack was fouled up
  8314. or something.  the ready queue was fine but Sched_ContextSwitch was never
  8315. being called.  I'm dialed in so I finally just rebooted.  Someone should
  8316. try to check mint's console log to see if there's any clue there....
  8317.  
  8318.  
  8319.  
  8320.  
  8321. 1225.
  8322. Date: Sun, 13 May 90 20:34:31 PDT
  8323. From: Fred Douglis <douglis>
  8324. Subject: ds3100 vm panic: bad list
  8325.  
  8326. kvetching died during a page-in with a bad list -- seems TLBHashInsert
  8327. was inserting with pid 0 which had a "pidListElems[pid].tlbList" of
  8328. NIL.  
  8329.  
  8330.  
  8331.  
  8332.  
  8333. 1226.
  8334. Date: Mon, 14 May 90 09:36:15 PDT
  8335. From: pmchen (Peter M. Chen)
  8336. Subject: mail not delivered from non-sprite to sprite
  8337.  
  8338. Mail from the non-sprite world to sprite is not getting through (or it's
  8339. taking real long, like days).  Mail from sprite to sprite is fine.
  8340. Mail from sprite to the outside works fine.
  8341.  
  8342.  
  8343.  
  8344.  
  8345. 1227.
  8346. Date: Mon, 14 May 90 09:42:21 PDT
  8347. From: Fred Douglis <douglis>
  8348. Subject: Re: mail not delivered from non-sprite to sprite 
  8349.  
  8350. i tried "telnet allspice 25" to see if the sendmail daemon was responding.
  8351. it wasn't.  i was able to rlogin and i saw that the sendmail daemon
  8352. was around.  i think there's some sort of bug in the ipServer that causes
  8353. it to lock up connections after a while (i doubt the bug is in sendmail,
  8354. which is straight from BSD).  the same thing happens to inetd, especially
  8355. on allspice.  
  8356.  
  8357. i restarted the sendmail daemon.  thanks for pointing this out.  every so
  8358. often when i don't get mail for a while i check on allspice's daemon, but
  8359. i thought i'd checked recently.  guess not.
  8360.  
  8361.  
  8362.  
  8363.  
  8364. 1228.
  8365. Date: Mon, 14 May 90 12:08:21 PDT
  8366. From: Fred Douglis <douglis>
  8367. Subject: leak in pdev 
  8368.  
  8369. i found out that mendel's bug report about migd growing so large was
  8370. from a core leak in pdev.c.  it allocates read & ioctl buffers on a
  8371. per-stream basis but never frees them!  (if they are reallocated
  8372. they're freed, but the last allocation sticks around.)
  8373.  
  8374. i wonder if this could account for any remaining core leaks in the
  8375. ipServer?  it certainly accounts for migd, since each request for load
  8376. averages would pitch 2K.  
  8377.  
  8378. one thing, though.  remember when allspice crashed when you were
  8379. trying to check in pdev.c?  well, i tried checking it out but the file
  8380. was "busy".  so i removed the lock file in RCS and tried again.  it
  8381. didn't tell me that the file had been modified or anything.  my
  8382. question is, did the file become read-only to you before it was
  8383. actually checked in?  in that case, any changes you made may have been
  8384. lost when i checked out the version RCS knew about.
  8385.  
  8386.  
  8387.  
  8388.  
  8389. 1229.
  8390. Date: Mon, 14 May 90 12:48:41 PDT
  8391. From: elm (ethan miller)
  8392. Subject: terrorism (sun4c) crash
  8393.  
  8394. This crash occurred while running Bruce Forstall's kernel, so
  8395. it may not be a true sprite bug, but....
  8396.  
  8397. Fatal Error: MachPageFault kernel page fault at illegal PC 0xf605ef40
  8398.     addr 0xdaf29814
  8399. Entering debugger with an Interrupt Trap (16) exception at PC 0xf608f0c8
  8400.  
  8401. I found the machine in this state when I got back on Monday morning,
  8402. and I rebooted it.
  8403.  
  8404.  
  8405.  
  8406.  
  8407. 1230.
  8408. Date: Mon, 14 May 90 18:12:08 PDT
  8409. From: Fred Douglis <douglis>
  8410. Subject: another major fs f**kup: /tmp this time
  8411.  
  8412. remember my mail about a binary in /sprite/daemons.ds3100 having
  8413. random junk in it, and changing even as i watched?  looks like /tmp
  8414. files are getting trashed similarly.  ccom is being directed at a file
  8415. that contains a combination of my pmake output, mary's kernel install
  8416. (i assume), and binary data.
  8417.  
  8418. --- ds3100.md/migd.o ---
  8419. ccom: Error: , line 1: syntax error
  8420.       rm -f ds3100.md/Mig_GetPdevName.o
  8421.       ---^
  8422. ccom: Error: , line 123: a / was found, but '.' expected; an ellipsis was inserted
  8423.       llib-lfsutil:../fs/fsStat.h
  8424.       ---------------^
  8425. ccom: Error: , line 262: a / was found, but '.' expected; an ellipsis was inserted
  8426.       llib-lfsutil:../fs/fsStat.h
  8427.       ---------------^
  8428. [20 similar lines deleted]
  8429. ccom: Error: , line 5302: illegal character: 221 (octal)
  8430.        * :        --^
  8431. (ccom): , line 5302: ccom: Internal: too many errors
  8432.        * :        --^
  8433. *** Error code 1
  8434. `install' not remade because of errors.
  8435. Compilation finished at Mon May 14 18:09:19
  8436.  
  8437.  
  8438.  
  8439. 1231.
  8440. Date: Mon, 14 May 90 18:13:47 PDT
  8441. From: Fred Douglis <douglis>
  8442. Subject: addendum
  8443.  
  8444. the problem of ccom being pointed at garbage happened twice over a
  8445. period of about 5 minutes.  each time, restarting pmake worked fine,
  8446. or at least it apparently worked fine.  (that's what scares me.  the
  8447. last time, i installed a binary and didn't know it was copied into a
  8448. garbage "file from hell" until i couldn't boot a machine!)
  8449.  
  8450.  
  8451.  
  8452.  
  8453. 1232.
  8454. Date: Tue, 15 May 90 10:20:48 PDT
  8455. From: Fred Douglis <douglis>
  8456. Subject: tx panic
  8457.  
  8458. tx panicked when it couldn't grab the pointer after i accidentally hit
  8459. a menu just as i was lowering the window.  this is a fatal error, but it
  8460. seems like it doesn't have to be fatal.
  8461.  
  8462.  
  8463.  
  8464.  
  8465. 1233.
  8466. Date:    Tue, 15 May 90 15:21:02 -0700 
  8467. From:    pmchen@sprite.Berkeley.EDU (Peter M. Chen)
  8468. Subject: gremlin font sizes
  8469.  
  8470. The default font sizes that come up on the screen (gremlin) are significantly
  8471. smaller than the default font sizes that come up using grn.  I'd guess
  8472. they're about 4 points smaller on the screen.
  8473.  
  8474. Can you look into this?  It's been the case for about half a year, but before
  8475. that it was fine.
  8476.  
  8477.  
  8478.  
  8479.  
  8480. 1234.
  8481. Date: Tue, 15 May 90 15:43:38 PDT
  8482. From: tve (Thorsten von Eicken)
  8483. Subject: Re: gremlin font sizes
  8484.  
  8485. The fonts may have changed when we started switching away from X11R2. Please
  8486. try gremlin now with an X11R4 server (and possibly gremlin compiled with
  8487. the X11R4 library), if you haven't done so already. If that fixes the
  8488. problem, great; if not, I tend to feel that gremlin is broken but that
  8489. I could assist you in tracking down the problem. It would certainly
  8490. help if you could do some cross-platform tests, like gremlin on sprite and
  8491. X on sunOs, or the reverse.
  8492.  
  8493.  
  8494.  
  8495. 1235.
  8496. Date: Tue, 15 May 90 17:13:07 PDT
  8497. From: mgbaker (Mary Gray Baker)
  8498. Subject: timer queue problems fixed...
  8499.  
  8500. If you ever have a problem with a timer queue being messed up, dying in
  8501. List_Insert() or List_Remove(), look for changes in size in, for instance, the
  8502. fs_Stats structure.  One of the common timer queue elements is statically
  8503. allocated right after the fs_Stats structure.  I'm mentioning this because
  8504. I've had this problem before with the timer queue, and because Fred wanted me
  8505. to mention it so it would be logged.
  8506.  
  8507.  
  8508.  
  8509.  
  8510. 1236.
  8511. Date: Wed, 16 May 90 13:54:38 PDT
  8512. From: mgbaker (Mary Gray Baker)
  8513. Subject: rosemary strings and kernel install
  8514.  
  8515. The strings program on rosemary, last updated April 24th, no longer recognizes
  8516. the VERSION string in the sun4, sun4c or sun3 kernels.  (It recognizes it in
  8517. the decstation kernel.)  This means that the "Save" done as part of the install
  8518. only moves the kernel to a name such as "sun4.".
  8519.  
  8520.  
  8521.  
  8522.  
  8523. 1237.
  8524. Date: Wed, 16 May 90 15:16:32 PDT
  8525. From: ouster (John Ousterhout)
  8526. Subject: More file corruptions in /sprite
  8527.  
  8528. 1. /sprite/lib/fonts/pk/icmex10.69pk was corrupted with part of a mail
  8529. message.
  8530.  
  8531.     mint-2# ls -l icmex10.69pk
  8532.     -rw-r--r--  1 root         1464 Oct 14  1987 icmex10.69pk
  8533.     mint-3# fsindex -dev rxy0 -part g icmex10.69pk
  8534.     icmex10.69pk         Desc 57862 size 1464 kbytes 2 version
  8535.            0:     7996   -1  * 2 frag(s) offset 0
  8536.     icmex10.69pk         1 blocks 1 seeks
  8537.  
  8538. 2. /sprite/lib/fonts/pk/ilcmssi8.746pk was corrupted with what appears
  8539. to be migd log messages.
  8540.  
  8541.     mint-4# ls -l ilcmssi8.746pk
  8542.     -rw-rw-r--  1 root         1464 Oct 25  1987 ilcmssi8.746pk
  8543.     mint-5# fsindex -dev rxy0 -part g ilcmssi8.746pk
  8544.     ilcmssi8.746pk       Desc 58529 size 1464 kbytes 2 version
  8545.            0:   172176   -1  * 2 frag(s) offset 0
  8546.     ilcmssi8.746pk       1 blocks 1 seeks
  8547.  
  8548. 3. /sprite/doc/ref.ancient/cmds/.proto was corrupted with what appears
  8549. to be RCS information from biglibtop.mk,v (from /sprite/lib/pmake?)
  8550.  
  8551.     mint-6# ls -l .proto
  8552.     -rw-rw-r--  1 deboor        668 Oct 19  1987 .proto
  8553.     mint-8# fsindex -dev rxy0 -part g .proto
  8554.     .proto               Desc 24976 size 668 kbytes 1 version
  8555.            0:     1238   -1  * 1 frag(s) offset 2
  8556.     .proto               1 blocks 1 seeks
  8557.  
  8558. I need to check some of the other bug reports to be sure, but it seems
  8559. to me that it's always fragment 1 that ends up being shared between two
  8560. files.
  8561.  
  8562.  
  8563.  
  8564. 1238.
  8565. Date: Wed, 16 May 90 17:13:48 PDT
  8566. From: ouster (John Ousterhout)
  8567. Subject: Migration database in distribution
  8568.  
  8569. When I ran "finger" on the Sprite machine at CMU (booted from the
  8570. distribution tape, it died with the error "could not access migration
  8571. database".  I believe that this is because a file is missing?  I
  8572. also think this bug was present in earlier distributions and was
  8573. reported.  Bob, can you fix this in the distribution, and also add
  8574. a note to your list of tests to run when you're testing new
  8575. distributions to test finger and rup?
  8576.  
  8577.  
  8578.  
  8579.  
  8580. 1239.
  8581. Date: Thu, 17 May 90 09:44:49 PDT
  8582. From: Fred Douglis <douglis>
  8583. Subject: distribution migd problem
  8584.  
  8585. I was able to get things working at CMU:
  8586.  
  8587. [testarossa.mach.cs.cmu.edu] 
  8588. Login       Name              Idle    When            Where
  8589. ouster   John Ousterhout          5 Tue 08:25  testarossa   (tyranny.Berkel)
  8590. root     The Sprite God           2 Mon 13:58  testarossa  
  8591.  
  8592. The problems were:
  8593.  
  8594. 1) bootcmds started up loadavg rather than migd.
  8595.  
  8596. 2) migd was not setuid to root (and there was no /sprite/src/daemons/migd).
  8597.  
  8598. another separate problem is:
  8599.  
  8600. 3) testarossa's date is 9:39 AM PDT on some date in 1972.  Let's hear it
  8601. for bootstrapping.
  8602.  
  8603. By the way, I *think* the other programs are set up to use migd
  8604. rather than the old shared ascii file.... a quick pmake test said
  8605. no hosts were available, but i guess that would happen if the
  8606. shared file was just empty, so that doesn't say much.  finger uses migd.
  8607. since they only have one host in spritehosts, it probably doesn't much
  8608. matter...
  8609.  
  8610.  
  8611.  
  8612.  
  8613. 1240.
  8614. Date: Thu, 17 May 90 14:22:26 PDT
  8615. From: Fred Douglis <douglis>
  8616. Subject: nuke the decwriter!!!
  8617.  
  8618. mint had another recovery storm when it rebooted after a cache
  8619. writeback problem (due to running an old kernel without the bug fix).
  8620. i finally tried typing "cat /hosts/mint/dev/syslog" from my machine.
  8621. after about 5 minutes of recovery storm it snuck in there and started
  8622. catting the file, at which point the storm ended.  when i continued
  8623. jaywalk, larceny, and treason, that window printed about 30 lines of
  8624. messages in rapid succession. if that had been going to mint's console
  8625. everyone would have started timing out again.
  8626.  
  8627.  
  8628.  
  8629.  
  8630. 1241.
  8631. Date: Thu, 17 May 90 14:23:57 PDT
  8632. From: Fred Douglis <douglis>
  8633. Subject: mail trashed (real message)
  8634.  
  8635. how appropriate that my mail about mail getting trashed came out twice
  8636. as an empty message!
  8637.  
  8638. it was really just saying the bob miller sent mail before about
  8639. printer trouble, and i, for one, got only a garbage message.  (i got a
  8640. real copy of it on unix, which is how i know what it was). 
  8641.  
  8642.  
  8643.  
  8644.  
  8645. 1242.
  8646. Date: Thu, 17 May 90 14:30:12 PDT
  8647. From: root (The Sprite God)
  8648. Subject: runaway csh after boot
  8649.  
  8650. there was a csh -i process in a loop, with a parent process of initSprite.
  8651. i killed it.  i don't know if this was because bootstrap failed or it
  8652. was something else.
  8653.  
  8654.  
  8655.  
  8656.  
  8657. 1243.
  8658. Date: Fri, 18 May 90 09:05:01 PDT
  8659. From: ouster (John Ousterhout)
  8660. Subject: Another corrupted file
  8661.  
  8662. The good news is that so far I've never found a corrupted file except
  8663. on /sprite.
  8664.  
  8665. Today's victim is /sprite/lib/mkmf/RCS/Makefile.hdrs,v.  Bob, can you
  8666. restore this file from dump tape?  It was the unwilling recipient of
  8667. a piece of an outgoing mail message.  The corrupted fragment was once
  8668. again fragment 1 out of a 4-fragment block.  Here's the relevant
  8669. information:
  8670.  
  8671. mint-1# ls -l Makefile.hdrs,v
  8672. -r--r--r--  1 rab          1666 Oct  9  1989 Makefile.hdrs,v
  8673. mint-2# fsindex -dev rxy0 -part g Makefile.hdrs,v
  8674. Makefile.hdrs,v      Desc 6344 size 1666 kbytes 2 version
  8675.            0:   336732   -1  * 2 frag(s) offset 0
  8676. Makefile.hdrs,v      1 blocks 1 seeks
  8677.  
  8678.  
  8679.  
  8680.  
  8681. 1244.
  8682. Date: Fri, 18 May 90 14:33:13 PDT
  8683. From: mendel (Mendel Rosenblum)
  8684. Subject: mkmf bug with .o files
  8685.  
  8686. When you type "mkmf" in a directory of type "bigcmd" (/sprite/src/attcmds/rpn
  8687. for example) you get an error message of:
  8688.  
  8689. WARNING: file ds3100.md/linked.o does not have a source file
  8690.  
  8691.  
  8692.  
  8693.  
  8694. 1245.
  8695. Date: Fri, 18 May 90 15:42:34 PDT
  8696. From: Fred Douglis <douglis>
  8697. Subject: xman broken under R4
  8698.  
  8699. the R3 xman is broken with the R4 server (i get lots of "parameter not
  8700. a window" messages).  i presume it won't compile under R4 without
  8701. changes.  is there an xman distributed with R4, or does anyone know
  8702. what must change?
  8703.  
  8704.  
  8705.  
  8706.  
  8707. 1246.
  8708. Date: Fri, 18 May 90 16:28:55 PDT
  8709. From: elm (ethan miller)
  8710. Subject: tx compatibility with "normal" terminal
  8711.  
  8712. Would it be possible to include a mode in tx which makes it
  8713. compatible with a normal terminal, such as an xterm or vt100?
  8714. The reason I ask is that some machines I rlogin into (in
  8715. particular, Crays) don't have any way of using a terminal
  8716. type not built in, so I can't use tx directly and have to
  8717. use an xterm running on a SunOS machine.
  8718.  
  8719. Another (very minor) problem--can the cross-hatching on the bottom
  8720. of an empty tx window be changed to the solid background color?
  8721.  
  8722.  
  8723.  
  8724.  
  8725. 1247.
  8726. Date: Sat, 19 May 90 16:34:31 PDT
  8727. From: mendel (Mendel Rosenblum)
  8728. Subject: more fs locking problems
  8729.  
  8730. Oregano hung up with /tmp locked. The problem appears to be similiar to the
  8731. consist deadlock we had before.  A file in /tmp was being deleted and the
  8732. RpcServer was hung trying to relock the handle after the consist callbacks in
  8733. Fsconsist_ClientRemoveCallback().  It differed from the previous deadlock 
  8734. because the handle was locked by a Proc_ServerProc that was writing back 
  8735. a swap file totally unrelated to the file being deleted. It appears there
  8736. must be some Proc_CallFunc'ed routine that locks a handle but doesn't unlock
  8737. it before returning. 
  8738.  
  8739. It's a scary thought that /tmp remains locked for the callbacks when deleting
  8740. a file in /tmp with dirty blocks in a client cache. 
  8741.  
  8742.  
  8743.  
  8744.  
  8745. 1248.
  8746. Date: Sun, 20 May 90 13:35:01 PDT
  8747. From: mendel (Mendel Rosenblum)
  8748. Subject: mint crash 5/20
  8749.  
  8750. I had to reboot mint today because it hung and would not respond to the console.
  8751. It appeared to have been to involved in recovery with several clients at the
  8752. time. 
  8753.  
  8754. >From our experence with the last couple for reboots of mint it is clear that
  8755. mint will not recover without some help. I had to put the machines in our
  8756. office into the debugger and cat mints syslog to /dev/null to get the
  8757. recovery storm to end.  It also indicates that recovery storms are not
  8758. depended on crashes during high activity. The entire system was basically
  8759. idle when mint crashed.
  8760.  
  8761.  
  8762.  
  8763. 1249.
  8764. Date: Thu, 24 May 90 11:29:24 PDT
  8765. From: Fred Douglis <douglis>
  8766. Subject: ds3100 X11R4 server problem
  8767.  
  8768. if i open a window from a remote host, and that host crashes or
  8769. reboots when i have the window iconified, then when i try to open the
  8770. window my server freezes and must be restarted.  this worked fine
  8771. under R3.
  8772.  
  8773.  
  8774.  
  8775.  
  8776. 1250.
  8777. Date: Fri, 25 May 90 16:42:12 PDT
  8778. From: douglis@rosemary.Berkeley.EDU (Fred Douglis)
  8779. Subject: oregano dreadlock
  8780.  
  8781. oregano died with the same bug mendel found recently: on kvetching, i hit a 
  8782. "consist done" and "remove" getting hung, and then everyone started backing
  8783. up on /c.  the backtrace of who had locked what ended with a Proc_CallFunc
  8784. having locked something but never unlocked it before finishing whatever it
  8785. was doing.
  8786.  
  8787.  
  8788.  
  8789.  
  8790. 1251.
  8791. Date: Sun, 27 May 90 05:19:18 PDT
  8792. From: rab (Robert A. Bruce)
  8793. Subject: migd
  8794.  
  8795. Migd was writing about 50 messages per second to hijack's console
  8796. complaining about an undefined ioctl.  I put hijack into the debugger.
  8797. /hosts/hijack/syslog.out was more than 15 Meg.  I deleted it because
  8798. / was full.
  8799.  
  8800.  
  8801.  
  8802.  
  8803. 1252.
  8804. Date: Mon, 28 May 90 17:20:07 PDT
  8805. From: douglis@dill (+)
  8806. Subject: ds3100 R4 server starts up wrong
  8807.  
  8808. it behaves as though F1 were pressed. my first keystroke was a D,
  8809. and the machine went into the debugger.
  8810.  
  8811.  
  8812.  
  8813.  
  8814. 1253.
  8815. Date: Mon, 28 May 90 17:40:17 PDT
  8816. From: douglis@dill (+)
  8817. Subject: correction: R4 server when restarted
  8818.  
  8819. the problem with the console being in F1-mode only occurs
  8820. if i have to kill the server with F1-K and then i restart --
  8821. but it isn't just that F1 is still in place, since i can type
  8822. commands and the F1 doesn't reappear until I start X.
  8823.  
  8824. this may not be an R4 bug but just a kernel bug that this sequence
  8825. tweakeed...
  8826.  
  8827.  
  8828.  
  8829.  
  8830. 1254.
  8831. Date: Tue, 29 May 90 11:30:19 PDT
  8832. From: tve (Thorsten von Eicken)
  8833. Subject: TLB ST miss exception on gluttony (ds3100)
  8834.  
  8835. Gluttony seems to die nightly with this error at PC 0x800bf8f8.
  8836. Is that a know problem? Is it worth debugging the next time 'round?
  8837.  
  8838.  
  8839.  
  8840. 1255.
  8841. Date: Tue, 29 May 90 16:16:19 PDT
  8842. From: sequent!fubar@uunet.uu.net
  8843. Subject: Fsmake computes bogus free space
  8844.  
  8845.  
  8846.     In SetDomainParts, fsmake.c computes "numBlocks" (free space
  8847. left in the partition) based on the number of cylinders on the entire
  8848. disk.  This is wrong; it should use the number of cylinders in the
  8849. partition being built.  I noticed this when fsmake attempted to put
  8850. 209000 file descriptors on an 8 meg partition of an 750 meg disk.
  8851. After this fix, it created 8600 descriptors, a much more reasonable
  8852. value.
  8853.  
  8854.  
  8855.  
  8856.  
  8857. 1256.
  8858. Date: Wed, 30 May 90 10:10:00 PDT
  8859. From: mendel (Mendel Rosenblum)
  8860. Subject: Re: Allspice crashed
  8861.  
  8862. > Allspice crashed last night.  Fatal Error: Pmeg lists empty
  8863.  
  8864. This means it ran out of pmegs. My guess is it was caused by the memory leaks we
  8865. have in the Sprite kernel.  When I did a vmstat on allspice yesterday morning
  8866. it looked like:
  8867. MEMORY STATS:
  8868.     Page Size:    8192    
  8869.     Memory Size:    131048  
  8870.     Kernel Memory:    29752    (Code+Data=28608 Stacks=1120 Reserved=24)
  8871.     User Memory:    5008     (Dirty=1912 Clean=3096)
  8872.     FS Memory:    80000    (Min=0 Max=80000)
  8873.     Free Memory:    16248
  8874.  
  8875. This means that at least 80000 + 29752 = 107 megabytes of pmegs were in use by
  8876. the kernel and file cache. There are only 128 megabytes of pmegs available.
  8877.  
  8878. Here's a rule of thumb for Sprite kernel memory usage:
  8879.  
  8880.    For a machine with N megabytes of memory, the Sprite kernel will expand 
  8881.    to N/3 megabytes.  
  8882.  
  8883. oregano up 4 days: Memory size: 16 Meg, Sprite Kernel: 7.2 Meg
  8884. jaywalk up 7 days: Memory size: 28 Meg, Sprite Kernel: 9.0 Meg
  8885. allspice up 5 days: Memory size: 128 Meg, Sprite Kernel: 30.0 Meg
  8886. terrorism up 14 days: Memory size: 28 Meg, Sprite Kernel: 8.7 Meg
  8887. tyranny up 14 days: Memory size: 26 Meg, Sprite Kernel: 8.1 Meg
  8888.  
  8889.  
  8890.  
  8891.  
  8892. 1257.
  8893. Date: Wed, 30 May 90 10:27:37 PDT
  8894. From: mendel (Mendel Rosenblum)
  8895. Subject: sparcStation memory loss
  8896.  
  8897. There is some weirdness in the memory size as reported by the vmstat command
  8898. on the sun4c.  Jaywalk, treason, terrorism, sabotage, and espionage all
  8899. report 28620 kilobytes of memory. This is 52 kilobytes less than 28 megabytes,
  8900. the amount of memory in the machine. 52K can probably be explained by memory
  8901. "stolen" by the PROM.  Sage reports 28452 kilobytes; 220 kilobytes less than
  8902. 28 megabytes.  Larceny and tyranny report 26520 and 26184 kilobytes. This is
  8903. over 2 megabytes less than 28 megabytes.  
  8904.  
  8905.  
  8906.  
  8907.  
  8908. 1258.
  8909. Date: Wed, 30 May 90 13:36:31 PDT
  8910. From: tve (Thorsten von Eicken)
  8911. Subject: gluttony dies again
  8912.  
  8913. Bad kernel TLB fault at 0x62f0 procptr=0xffffffff
  8914. TLB ST miss exception at PC 0x800bf8f8
  8915.  
  8916. Nobody answered yesterday. Does this look like a software or a hardware failure?
  8917. If it dies again tomorrow, can I ask someone to debug it?
  8918.  
  8919.  
  8920.  
  8921.  
  8922. 1259.
  8923. Date: Wed, 30 May 90 13:41:06 PDT
  8924. From: shirriff (Ken Shirriff)
  8925. Subject: random rlogin error
  8926.  
  8927. I did "rlogin murder" and got "murder.Berkeley.EDU: unknown error (0)".
  8928. I immediately tried again and it worked.
  8929.  
  8930.  
  8931.  
  8932.  
  8933. 1260.
  8934. Date: Wed, 30 May 90 22:55:20 PDT
  8935. From: tve (Thorsten von Eicken)
  8936. Subject: gluttony dead AGAIN, can someone please debug!?
  8937.  
  8938. I need help!  Gluttony dies daily. It's dead right now. I bet (can't get
  8939. to the office) that it's again the same error. Can someone PLEASE
  8940. spend the time debugging the machine to determine whether it's a
  8941. kernel bug or a hardware failure?
  8942.  
  8943. The trap almost certainly is:
  8944. Bad kernel TLB fault at 0x62f0
  8945. Enetering debugger with a TLB ST miss exception at PC 0x800bf8f8
  8946.  
  8947.  
  8948.  
  8949.  
  8950. 1261.
  8951. Date: Wed, 30 May 1990 23:50:41 PDT
  8952. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  8953. Subject: Re: gluttony dead AGAIN, can someone please debug!?
  8954.  
  8955. I debugged gluttony for a while and wasn't able to determine anything
  8956. conclusive. It kind of looks like either a hardware problem, or we
  8957. are taking an interrupt when we shouldn't be. In the following 
  8958. sequence of code the register %r25 should contain the
  8959. pointer 0x80105630.  Instead it contains 0x563c. It almost looks like
  8960. the first lui got lost, but not quite (where did the extra 0xc come
  8961. from?).
  8962.  
  8963.   [Timer_TimerServiceInterrupt:319, 0x800bf8e0]         lui     r25,0x8010
  8964.   [Timer_TimerServiceInterrupt:318, 0x800bf8e4]         lbu     r3,0(r14)
  8965.   [Timer_TimerServiceInterrupt:319, 0x800bf8e8]         addiu   r25,r25,22064
  8966.   [Timer_TimerServiceInterrupt:319, 0x800bf8ec]         sll     r24,r15,2
  8967.   [Timer_TimerServiceInterrupt:319, 0x800bf8f0]         addu    r4,r24,r25
  8968.   [Timer_TimerServiceInterrupt:320, 0x800bf8f4]         andi    r8,r3,0x40
  8969. >*[Timer_TimerServiceInterrupt:319, 0x800bf8f8]         sw      r0,0(r4)
  8970.  
  8971.  
  8972.  
  8973.  
  8974.  
  8975. 1262.
  8976. Date: Thu, 31 May 90 15:12:40 PDT
  8977. From: Fred Douglis <douglis>
  8978. Subject: tx properties bug
  8979.  
  8980. it seems that tx doesn't obey the (new?) standard X convention that
  8981. puts properties on windows regarding whether they're iconified.  if
  8982. you have a bunch of iconified windows, and restart twm (and have
  8983. "RestartPreviousState" set in .twmrc), then most applications will get
  8984. reiconified automatically.  tx doesn't.
  8985.  
  8986.  
  8987.  
  8988.  
  8989.  
  8990. 1263.
  8991. Date: Thu, 31 May 90 16:06:17 PDT
  8992. From: Fred Douglis <douglis>
  8993. Subject: sun4c pmeg thrashing bug
  8994.  
  8995. larceny went into absolute slo-mo this afternoon after oregano acted
  8996. up.  pmegs getting stolen constantly despite the fact that the fs
  8997. cache size was only 2MB.  shrinking the cache further (fscmd -M 50)
  8998. sped things up again, but in the meantime it was totally unusable.
  8999. the ipServer is about 4MB for some reason, and it and Xmfb (1.7MB) and
  9000. emacs (1.3MB) were all constantly ready.
  9001.  
  9002.  
  9003.  
  9004.  
  9005. 1264.
  9006. Date: Fri, 01 Jun 90 10:46:48 PDT
  9007. From: Fred Douglis <douglis>
  9008. Subject: kvetching died running vov (different error)
  9009.  
  9010. It died with a bus error in Fsutil_WaitListInsert.  The running
  9011. process was the newtee process that reads /dev/syslog.  the backtrace
  9012. was:
  9013.  
  9014.    0 Fsutil_WaitListInsert(list = 0xc02c5ad8, waitPtr = 0xc1247fa8) ["fsNotify.c":65, 0x80085474]
  9015. >  1 Fsio_DeviceRead(streamPtr = 0xc1247fb4, readPtr = 0xc1247fb8, remoteWaitPtr = 0xc1247fa8, replyPtr = 0xc1247f74) ["fsDevice.c":758, 0x8006a234]
  9016.    2 .block154 ["fsStreamOps.c":112, 0x80054b30]
  9017.    3 Fs_Read(streamPtr = 0x80032e80, buffer = 0x10003460, offset = 20229, lenPtr = 0xc1247fec) ["fsStreamOps.c":112, 0x80054b30]
  9018.    4 Fs_ReadStub(streamID = 4, amountRead = 0, buffer = 0x10003460, amountReadPtr = 0x7ddff8ec) ["fsSysCall.c":319, 0x80055e0c]
  9019.    5 MachSysCall(0x0, 0x10003460, 0x7ddff8ec, 0x4004a8, 0xfc0c)
  9020.      ["ds3100.md/machAsm.s":1501, 0x800335a8]
  9021.  
  9022. the point in Fsio_DeviceRead that called Fsutil_WaitListInsert passed
  9023. it a value that was different inside Fsutil_WaitListInsert.  nothing
  9024. inside that routine is supposed to change this variable.
  9025. interestingly, the value it got changed to isn't totally off the wall
  9026. -- it changed from 0xc0198870 to 0xc02c5ad8.  i think what finally
  9027. happened is that when it ran down the bogus list it tried to indirect
  9028. through a pointer into the code segment. 
  9029.  
  9030.  
  9031.  
  9032.  
  9033. 1265.
  9034. Date: Thu, 31 May 90 23:04:36 PDT
  9035. From: sequent!fubar@uunet.uu.net
  9036. Subject: Re: dev_t == short? 
  9037.  
  9038. >the 4.3 sources here make dev_t a short.  (i just checked
  9039. >on okeeffe and monet.)  i'm not sure how to resolve the
  9040. >discrepancy.... we should probably just discuss this at monday's
  9041. >meeting. 
  9042.  
  9043.     You're right; I was confused.  The 4.3 sources do indeed make
  9044. dev_t a short (include/sys/ is a symlink to /sys/h/, which puts me
  9045. back in the Dynix source).  Under Dynix, though, dev_t is a long.
  9046.  
  9047.     Personally, I think making it a long in Sprite (and fixing up
  9048. stat(2) & whatever else) would save confusion; I've been bitten by the
  9049. disappearing 8 bits of unit number several times, most recently today:
  9050. tar will (silently, unless you use -v) not copy /dev correctly, since
  9051. /dev/ether* have unit numbers greater than 255.
  9052.  
  9053.  
  9054.  
  9055.  
  9056.  
  9057. 1266.
  9058. Date: Fri, 1 Jun 90 11:02:35 PDT
  9059. From: douglis@rosemary.Berkeley.EDU (Fred Douglis)
  9060. Subject: oregano deadlock yet again
  9061.  
  9062. the same old thing:
  9063. #3  0xe063f44 in Sync_SlowWait (...) (...)
  9064. #4  0xe03aa8a in Fsutil_HandleLockHdr (...) (...)
  9065. #5  0xe025976 in Fsconsist_ClientRemoveCallback (...) (...)
  9066. #6  0xe028c5e in Fsio_FileCloseInt (...) (...)
  9067. #7  0xe02e6fe in DeleteFileName (...) (...)
  9068. #8  0xe02d6b6 in FslclLookup (...) (...)
  9069. #9  0xe02cd3c in FslclRemove (...) (...)
  9070. #10 0xe038892 in Fsrmt_RpcRemove (...) (...)
  9071. #11 0xe05ee0c in Rpc_Server (...) (...)
  9072.  
  9073.  
  9074. 1267.
  9075. Date: Fri, 01 Jun 90 11:30:17 PDT
  9076. From: sequent!fubar@uunet.UU.NET
  9077. Subject: Fscheck fails to fix errors
  9078.  
  9079.  
  9080.     In the following, rzd01b is a 30meg partition on a swallow 5,
  9081. that has just been fsmaked upon.  I've seen similar occurances in the
  9082. past, with fscheck repeatedly complaining about "block count for file
  9083. xxx wrong; is yy should be zz" over and over on the same partition.
  9084. Booting single user and "mv xxx tmp; cp tmp xxx" fixes that one.  I'm
  9085. not sure about this one.
  9086.  
  9087.     What units are the "Block 327xx" reported in?  If they are
  9088. filesystem blocks (4K), then they are much too large for the
  9089. filesystem, which has only 8190 data blocks.
  9090.  
  9091. elm309 28 # fsmake -dev rzd01 -part b -initialPart c -write
  9092. Making filesystem for local host, ID = 0x4
  9093. MakeFilesystem based on 4K filesystem blocks
  9094.  
  9095. You are about to overwrite the "(new domain)" filesystem.
  9096. Do you really want to do this?[y/n] y
  9097. Disk has 27 tracks/cyl, 81 sectors/track
  9098. 273 4K Blocks fit on a cylinder with 3 512 byte sectors wasted
  9099. Reserving 273 blocks for domain header, etc.
  9100. Domain Header <f8e7d6c5>
  9101. First Cyl 355, num Cyls 32, raw size 34992 kbytes
  9102.                          offset     blocks
  9103. FD Bitmap                   273          1
  9104. File Desc                   274        271       8672
  9105. Bitmap                      545          1
  9106. Data Blocks                 546       8190
  9107. Geometry
  9108. sectorsPerTrack 81, numHeads 27
  9109. blocksPerRotSet 0, tracksPerRotSet 0
  9110. rotSetsPerCyl -1, blocksPerCylinder 273
  9111. Offset  (Sorted)
  9112. >> 8672 files, 32760 kbytes
  9113. "(new domain)" (-1)     32748 Kbytes free, 8668 file descriptors free
  9114. Attach seconds: 18365
  9115. Detach seconds: 18418
  9116. elm309 29 # fscheck -bitmapVerbose -dev rzd01 -part b -initialPart c -write -verbose
  9117. rzd01b: ***** Fscheck *****
  9118. rzd01b: Fri Jun  1 11:20:24 1990
  9119. rzd01b: Performing recovery check
  9120. rzd01b: Summary Sector Info:
  9121. rzd01b: (new domain) domain -1 safe
  9122. rzd01b: Attach/Detach fields not valid.
  9123. rzd01b: Fscheck has fixed disk 0 times already.
  9124. rzd01b: Checking file descriptors:
  9125. rzd01b: Traversing directory tree:
  9126.  
  9127. rzd01b: Comparing old and new data block bit maps:
  9128. rzd01b: Block 32768: old 0 new 4.
  9129. rzd01b: Block 32776: old 1 new c.
  9130. rzd01b: Block 32780: old 0 new b.
  9131. rzd01b: Block 32832: old f new 0.
  9132. rzd01b: Block 32836: old f new 0.
  9133. rzd01b: Block 32840: old f new 0.
  9134. rzd01b: Found error in data block bitmap
  9135. rzd01b: 3 files, 12 blocks in use, 32748 blocks free, 0 fragments
  9136. rzd01b: Writing disk
  9137. elm309 30 # !!
  9138. fscheck -bitmapVerbose -dev rzd01 -part b -initialPart c -write -verbose
  9139. rzd01b: ***** Fscheck *****
  9140. rzd01b: Fri Jun  1 11:21:03 1990
  9141. rzd01b: Performing recovery check
  9142. rzd01b: Summary Sector Info:
  9143. rzd01b: (new domain) domain -1 safe
  9144. rzd01b: Attach/Detach fields not valid.
  9145. rzd01b: Fscheck has fixed disk 1 times already.
  9146. rzd01b: Checking file descriptors:
  9147. rzd01b: Traversing directory tree:
  9148.  
  9149. rzd01b: Comparing old and new data block bit maps:
  9150. rzd01b: Block 32768: old 0 new 4.
  9151. rzd01b: Block 32776: old 1 new c.
  9152. rzd01b: Block 32780: old 0 new b.
  9153. rzd01b: Block 32832: old f new 0.
  9154. rzd01b: Block 32836: old f new 0.
  9155. rzd01b: Block 32840: old f new 0.
  9156. rzd01b: Found error in data block bitmap
  9157. rzd01b: 3 files, 12 blocks in use, 32748 blocks free, 0 fragments
  9158. rzd01b: Writing disk
  9159. elm309 31 #
  9160.  
  9161.  
  9162.  
  9163.  
  9164. 1268.
  9165. Date: Fri, 01 Jun 90 17:07:01 PDT
  9166. From: Fred Douglis <douglis>
  9167. Subject: migration deadlock
  9168.  
  9169. espionage died with a migration-related deadlock.  While one rpc
  9170. server had the sig monitor locked and was trying to lock a process,
  9171. another server had the process locked and was trying to get the sig
  9172. monitor.  oops.  clearly, brent isn't the only one who succumbed to
  9173. the "unlock and then lock object" syndrome.  i'll try to fix this at
  9174. my first opportunity.  
  9175.  
  9176.  
  9177.  
  9178.  
  9179. 1269.
  9180. Date: Mon, 4 Jun 90 00:25:08 PDT
  9181. From: mgbaker (Mary Gray Baker)
  9182. Subject: mint crash during shutdown
  9183.  
  9184. Mint crashed tonight when I tried to shut it down.  After printing out
  9185. "catnip (48) RPC timed out" a few times, and then
  9186. "Waiting with 4 kernel processes still alive."
  9187. it printed out "Fatal Error: CallFunc: Process queue full."
  9188. This may have something to do with my proc call funcs for the negative
  9189. acknowledgements if a bunch of machines time out on mint while it's
  9190. shutting down.  I'll have to look at that.
  9191.  
  9192.  
  9193.  
  9194. 1270.
  9195. Date: Mon, 4 Jun 90 01:00:22 PDT
  9196. From: mgbaker (Mary Gray Baker)
  9197. Subject: more about mint crash
  9198.  
  9199. I forgot to mention that mint hit a breakpoint trap while in the debugger
  9200. last night.  It printed out no other information than that.  I hadn't yet
  9201. attached to it from rosemary.  I'd accidentally hit break and then continue
  9202. from the console, and things seemed fine at first, but this probably messed
  9203. something up.
  9204.  
  9205.  
  9206.  
  9207.  
  9208. 1271.
  9209. Date: 4 Jun 90 09:16:42 PDT (Monday)
  9210. From: "Brent_B._Welch.PARC"@Xerox.COM
  9211. Subject: Re: oregano deadlock yet again
  9212.  
  9213. I thought I indicated how to fix the handle lock/consist lock deadlock.
  9214. The consistency lock and the handle lock should not be held
  9215. at the same time.
  9216.  
  9217.  
  9218.  
  9219.  
  9220. 1272.
  9221. Date: Mon, 4 Jun 90 12:09:15 PDT
  9222. From: culler (David Culler)
  9223. Subject: Slipping into the Sprite|Unix crack
  9224.  
  9225. In attempting to send a file to a printer on a Unix machine, e.g., shallot or guitar,
  9226. it is not uncommon to see a message of the form:
  9227.  
  9228. gluttony.Berkeley.EDU: waiting for queue to be enabled on guitar
  9229.  
  9230. The spooled files just sit in the queue waiting for said enable.  Does anybody
  9231. know what the cause is and how to deal with it?
  9232.  
  9233. P.S. If you were wondering why the above message came from gluttony rather than
  9234. cardamom, it is because gluttony has appropriate priviledge on Guitar.  Given
  9235. that sprite functions as a single machine in many ways, it would be nice if it
  9236. could fool the outside world into viewing it as such.  This would simplify
  9237. .rhosts, mail, and so on.
  9238.  
  9239.  
  9240.  
  9241.  
  9242. 1273.
  9243. Date: Mon, 04 Jun 90 12:17:35 PDT
  9244. From: Fred Douglis <douglis>
  9245. Subject: Re: Slipping into the Sprite|Unix crack 
  9246.  
  9247. in practice, anything dealing with the internet still views sprite as
  9248. multiple hosts.  mail is the only exception, and even there, mail that
  9249. goes out as "sprite" has SMTP daemons saying "kvetching, why do you
  9250. call yourself sprite?" and has mailers all over converting "sprite"
  9251. into "allspice" since they think that's the canonical form.
  9252.  
  9253. the problem is that IP connections go to the ipServer on the
  9254. particular host, using an ethernet address for that host.  so for
  9255. things like rlogin (so .rhosts would just trust "sprite") you'd have
  9256. to have one host doing all the internet access for the whole cluster.
  9257. this isn't unheard of, and is okay for logins, but it might be a
  9258. burden when doing rcp/ftp transfers.
  9259.  
  9260. with respect to lpd, the simplest solution w.r.t. hostnames may be to
  9261. redirect all files via allspice, and have outside printers trust
  9262. allspice.  that's already done with the spur unix machines -- they
  9263. spool to ginger and it passes it on from there.  as for the "waiting
  9264. for queue..." message -- that's been a thorn in our side for months
  9265. now, and i hope it can be fixed... i presume we can discuss it at
  9266. today's meeting.
  9267.  
  9268.  
  9269.  
  9270.  
  9271. 1273.
  9272. Date: Mon, 4 Jun 90 17:16:29 PDT
  9273. From: shirriff (Ken Shirriff)
  9274. Subject: socket bug
  9275.  
  9276. >From choi@postgres.Berkeley.EDU Mon Jun  4 16:03:40 1990
  9277.  
  9278. >i wrote testprograms, ~choi/postgres/test/testparent.c and 
  9279. >~choi/postgres/test/testchild.c, to test whether socket worked or not
  9280. >between parent and child processes.  they ran fine on ultrix, but 
  9281. >don't run on sprite.  "testparent" creates a socket, forks off
  9282. >a child process, which execl's "testchild", then the parent process
  9283. >does a sento() to the socket.  the child process tries to read from
  9284. >the socket, and if it is successful, it prints the data it has read.
  9285. >but on sprite "testchild" is blocked on read() and waits forever. 
  9286.  
  9287. >do "make testparent" and "make testchild" and execute the program
  9288. >by typing "testparent".
  9289.  
  9290.  
  9291.  
  9292. 1274.
  9293. Date: Tue, 5 Jun 90 17:49:32 PDT
  9294. From: shirriff (Ken Shirriff)
  9295. Subject: Junked mail file
  9296.  
  9297. My mail file got messed up sometime.  Of course, I'm the person
  9298. I should complain to about this, but I wanted it to be reported.
  9299.  
  9300.  
  9301.  
  9302.  
  9303. 1275.
  9304. Date: Tue, 05 Jun 90 17:59:59 PDT
  9305. From: sequent!fubar@uunet.uu.net
  9306. Subject: Deadlock in fscache
  9307.  
  9308.     I have an easily recreatable deadlock.  The end result looks
  9309. like the following.  I haven't determined exactly how this comes about
  9310. yet.
  9311.  
  9312.     On some file ("/sprite/src/lib/c/sym.md/libc.a," during a
  9313. "pmake -J 8 -L 8 -X" on an 8 processor, 40M memory Symmetry):
  9314.  
  9315.     Process A is holding the Fsconsist_Info.lock.  It is blocked
  9316. on the Fs_HandleHeader.unlocked Sync_Condition, waiting to be woken
  9317. upon.  The relevant portion of his stack looks like:
  9318.  
  9319. _Sched_ContextSwitchInt() from 0x6207a _SyncEventWaitInt+62
  9320. _SyncEventWaitInt() from 0x6184a _Sync_SlowWait+8a
  9321. _Sync_SlowWait() from 0x3cd08 _Fsutil_HandleLockHdr+38
  9322. _Fsutil_HandleLockHdr() from 0x276a5 _Fsconsist_GetClientAttrs+cd
  9323. _Fsconsist_GetClientAttrs() from 0x2e6c4 _FslclGetAttrPath+54
  9324. _FslclGetAttrPath() from 0x35d60 _Fsprefix_LookupOperation+bc
  9325. _Fsprefix_LookupOperation() from 0x19c1b _Fs_GetAttributes+8b
  9326. _Fs_GetAttributes() from 0x1c0b0 _Fs_CheckAccess+a8
  9327. _Fs_CheckAccess() from 0x6455 _MachFetchArgs+3a
  9328.  
  9329.     Process B is holding the Fs_HandleHeader LOCK_HANDLE, and is
  9330. blocked on the Fsconsist_Info.lock.  It appears that the relevant portion
  9331. of his stack looks like:
  9332.  
  9333. _IdleLoop() from 0x5f29f _Sched_ContextSwitchInt+e3
  9334. _Sched_ContextSwitchInt() from 0x6207a _SyncEventWaitInt+62
  9335. _SyncEventWaitInt() from 0x616e0 _Sync_SlowLock+90
  9336. _Sync_SlowLock() from 0x61606 _Sync_GetLock+1e
  9337. _Sync_GetLock() from 0x275f7 _Fsconsist_GetClientAttrs+1f
  9338. _Fsconsist_GetClientAttrs() from 0x2e6c4 _FslclGetAttrPath+54
  9339. _FslclGetAttrPath() from 0x35d60 _Fsprefix_LookupOperation+bc
  9340. _Fsprefix_LookupOperation() from 0x19c1b _Fs_GetAttributes+8b
  9341. _Fs_GetAttributes() from 0x1c0b0 _Fs_CheckAccess+a8
  9342. _Fs_CheckAccess() from 0x6455 _MachFetchArgs+3a
  9343.  
  9344.     Should LOCK_HANDLE really be called with the LOCK_MONITOR
  9345. held?  This appears (at first glance) to be the cause of the deadlock.
  9346.  
  9347.  
  9348.  
  9349.  
  9350. 1276.
  9351. Date: Tue, 5 Jun 90 22:21:13 PDT
  9352. From: shirriff@sprite.Berkeley.EDU (Ken Shirriff)
  9353. Subject: Re: Deadlock in fscache
  9354.  
  9355. The problem with the deadlock here is that LOCK_HANDLE and UNLOCK_HANDLE
  9356. expand to: LOCK_MONITOR, (un)lock handle, UNLOCK_MONITOR.
  9357. FslclGetAttrPath locks, unlocks, and relocks the handle.
  9358. So the final sequence is:
  9359. L(M), L(H), U(M), L(M), U(H), U(M), L(M), L(H), U(M)
  9360.  
  9361.  
  9362.  
  9363.  
  9364. 1277.
  9365. Date: Tue, 5 Jun 90 22:35:56 PDT
  9366. From: shirriff (Ken Shirriff)
  9367. Subject: Re: Deadlock in fscache (I'll try again)
  9368.  
  9369. [I didn't mean to send that out before, since it was incomplete.]
  9370.  
  9371. The problem with the deadlock here is that Fsutil_HandleLock and
  9372. Fsutil_HandleUnlock expand to: LOCK_MONITOR, (UN)LOCK_HANDLE, UNLOCK_MONITOR.
  9373. But FslclGetAttrPath locks, unlocks, and relocks the handle
  9374. with Fsutil_Handle(un)Lock.
  9375. So the lock sequence is:  (where L(M) locks the monitor, etc)
  9376. L(M), L(H), U(M), L(M), U(H), U(M), L(M), L(H), U(M)
  9377.         a           a                 b     b
  9378. One process locks the handle and then tries locking the monitor at (a).
  9379. The other process locks the monitor and then tries locking the handle at (b).
  9380. As a result they deadlock.
  9381.  
  9382. I think the handle should be locked like a monitor lock, instead of
  9383. being protected by a separate monitor lock.  Alternatively, I don't think
  9384. it's necessary to LOCK_MONITOR before unlocking the handle.  If the
  9385. LOCK_MONITOR before UNLOCK_HANDLE is removed, LOCK_MONITOR won't be called
  9386. with the handle locked, and deadlock can't occur.
  9387.  
  9388.  
  9389.  
  9390.  
  9391. 1278.
  9392. Date: 6 Jun 90 10:28:50 PDT (Wednesday)
  9393. From: "Brent_B._Welch.PARC"@Xerox.COM
  9394. Subject: Re: Deadlock in fscache
  9395.  
  9396. RIght, we (at least I) understand this deadlock.  The fix is to never hold the
  9397. handle lock while inside the consistency monitor.  Currently the locking
  9398. structure is:
  9399.  
  9400. 1) do something that gets you a locked handle (fetch, install, LocalLookup)
  9401. 2) enter the consistency monitor
  9402. 3) unlock the handle
  9403. 4) do consistency stuff
  9404. 5) relock the handle
  9405. 6) unlock the consistency monitor
  9406.  
  9407. This approach only reduces the deadlock window to a small one.  You should be
  9408. able to make a pass through fsConsist.c and fix this.  Actually, you'll probably
  9409. want to fix the routines that call into fsConsist.c to unlock the handle first.
  9410. I've told the folks at Berkeley about this, but they are pondering the whole
  9411. locking structure before doing anything (apparently).  The general rule to
  9412. guide your fix is to not hold the handle lock while inside the consistency
  9413. monitor.
  9414.  
  9415.  
  9416.  
  9417.  
  9418. 1279.
  9419. Date: 6 Jun 90 10:41:02 PDT (Wednesday)
  9420. From: "Brent_B._Welch.PARC"@Xerox.COM
  9421. Subject: Re: Deadlock in fscache (I'll try again)
  9422.  
  9423. Ken says "I don't think its necessary to LOCK_MONITOR before unlocking the
  9424. handle".
  9425. In fact, the proper fix is to never drop into the consistency monitor with
  9426. a locked handle.  In other words, unlock the handle before entering the
  9427. consistency monitor.  You still need the consistnecy monitor, and it has to
  9428. be a different lock than the handle lock.  Think of the handle lock as a
  9429. lock for initialization purposes, and note that this also includes pathname
  9430. lookup (a debatable merge).  Once the handle has been set up,
  9431. then it is ok to unlock the handle (while still keeping a reference to it).
  9432. Now it is ok to drop into the consistency monitor to generate callbacks,
  9433. etc.
  9434.  
  9435.  
  9436.  
  9437.  
  9438. 1280.
  9439. Date: Wed, 6 Jun 90 14:47:02 PDT
  9440. From: mgbaker (Mary Gray Baker)
  9441. Subject: mint crash during shutdown
  9442.  
  9443. I forgot to send mail about this last night.  Mint got another fatal error
  9444. during shutdown last night.  It got to the point in the shutdown sequence
  9445. where it prints out that it's about to sync its disks.  Then it printed
  9446. out "F" on the next line (for Fatal Error) but didn't make it into the
  9447. debugger.  This only seems to happen when mint keeps timing out on the machine
  9448. that I guess is running the global migration daemon.
  9449.  
  9450.  
  9451.  
  9452.  
  9453. 1281.
  9454. Date: Wed, 6 Jun 90 22:26:33 PDT
  9455. From: shirriff (Ken Shirriff)
  9456. Subject: Socket bug
  9457.  
  9458. Does someone want to look at the socket bug the postgres people are
  9459. having?  I don't understand much about sockets.
  9460.  
  9461. I've simplified the test program to ~shirriff/testsocket.c, which works
  9462. on rosemary and transmits data.  However on sprite it blocks waiting to
  9463. receive data.  The basic concept is:
  9464.  
  9465. fd = socket(AF_INET, SOCK_DGRAM,0);
  9466. addr.sin_family = AF_INET; addr.sin_addr.s_addr = INADDR_ANY;
  9467. bind(fd, &addr, sizeof(addr));
  9468. getsockname(fd, &addr, &sizeof(addr));
  9469. sendto(fd, data, sizeof(data), 0, &addr, sizeof(addr));
  9470. read(fd, &buf, 10);
  9471.  
  9472. This should open a socket, send data to the socket, and then receive
  9473. the data, but it blocks in the read.
  9474.  
  9475.  
  9476.  
  9477. 1282.
  9478. Date: Thu, 07 Jun 90 11:07:06 PDT
  9479. From: Fred Douglis <douglis>
  9480. Subject: there's a whole lotta crashing goin' on
  9481.  
  9482. between mendel's simulator crashing ds3100s and some recovery-related
  9483. bug (handles remain, etc.), a lot of machines died yesterday evening:
  9484.  
  9485.           piracy   ds3100 down   0+10:32        
  9486.             mace     sun3 down   0+10:46        
  9487.             buzz     sun3 down   0+10:54        
  9488.          joyride     sun4 down   0+12:01        
  9489.           burble     sun4 down   0+12:25        
  9490.           catnip     sun3 down   0+12:49        
  9491.          crackle     sun4 down   0+12:59        
  9492.        terrorism     sun4 down   0+13:06        
  9493.        sassafras     sun4 down   0+13:09        
  9494.           garlic   ds3100 down   0+13:16        
  9495.        fenugreek     sun3 down   0+13:23        
  9496.           lsisim   ds3100 down   0+16:24        
  9497.  
  9498. at least one machine that i was about to debug (terrorism) was
  9499. actually up, but its migration daemon must not be functioning right.
  9500.  
  9501. mary also sent mail to me regarding getting timeouts doing migrations
  9502. during pmake.  the message was sent at 11:20, which made me think it
  9503. was recovery-related, especially with her later mail about some
  9504. machines not recovering.  however, the down times for the machines she
  9505. mentioned imply that they crashed earlier, and not all at once.  
  9506.  
  9507.  
  9508.  
  9509.  
  9510. 1283.
  9511. Date: Thu, 07 Jun 90 11:20:16 PDT
  9512. From: Fred Douglis <douglis>
  9513. Subject: "handles remain" bug solved
  9514.  
  9515. the fix for incrementing the recovery reference count when migrating
  9516. devices was added to fsrmt, but apparently after 1.065 was made.
  9517. that's why a lot of machines started dying, as they panicked after
  9518. they'd done so many migrations that the reference count went to 0
  9519. despite having 150 or so handles to mint.  actually, the problem
  9520. occurred because mint was once again running the global migration
  9521. daemon, which usually isn't the case.
  9522.  
  9523.  
  9524.  
  9525.  
  9526. 1284.
  9527. Date: Thu, 7 Jun 90 12:24:29 PDT
  9528. From: mendel (Mendel Rosenblum)
  9529. Subject: Re: Socket bug
  9530.  
  9531. There is a bug in the ipServer such that datagrams sent to the address 
  9532. INADDR_ANY get dropped on the floor rather than sent to the local host 
  9533. as it is done on Unix.
  9534.  
  9535. You can  patch around this bug by using the address of the local system 
  9536. rather than INADDR_ANY. For example: 
  9537.  
  9538.  
  9539. fd = socket(AF_INET, SOCK_DGRAM,0);
  9540. addr.sin_family = AF_INET; addr.sin_addr.s_addr = INADDR_ANY;
  9541. bind(fd, &addr, sizeof(addr));
  9542. getsockname(fd, &addr, &sizeof(addr));
  9543.  { 
  9544.      char hostname[256];
  9545.      struct hostent *hp;
  9546.      gethostname(hostname, 256);
  9547.      hp = gethostbyname(hostname);
  9548.      bcopy(hp->h_addr_list[0], &addr.sin_addr, sizeof(addr.sin_addr));
  9549.  }
  9550. sendto(fd, data, sizeof(data), 0, &addr, sizeof(addr));
  9551. read(fd, &buf, 10);
  9552.  
  9553.  
  9554. will work.  Also, this is a VERY slow way to communicate on Sprite.  The
  9555. ipServer actually sends the packet!
  9556.  
  9557.  
  9558.  
  9559.  
  9560. 1285.
  9561. Date: Fri, 8 Jun 90 01:00:45 -0700
  9562. From: choi@postgres.Berkeley.EDU (Ron Choi)
  9563. Subject: more socket bug
  9564.  
  9565. in ~choi/postgres/test directory, there are three test programs named
  9566. "test", "test2", and "testsocket".  in order to run these test programs, type
  9567. "test port_number", where port number is any number between 1025 and
  9568. 32382.  and from another window, type "test2 port_number hostname", where
  9569. hostname is the name of the host machine.
  9570.  
  9571. "test" creates a socket and reads a string, "message blah, blah", from
  9572.  it and prints the string to stdout.  then it execl's "testsocket".
  9573.  
  9574. "testsocket" reads a string,"QQQQQQQQQQ", from the socket prints in stdout.
  9575.  
  9576. "test2" writes 2 strings, first of which is read by "test" and the other 
  9577.  read by "testsocket".
  9578.  
  9579. i ran this on babylon, and "testsocket" prints out "received:F", but it
  9580. should be "received:FQQQQQQQQQQQQQQQQ".  i know these test programs are
  9581. pretty far-fetched, but this is exactly what postgres does with the sockets
  9582. it creates. 
  9583.  
  9584.  
  9585. 1286.
  9586. Date: Fri, 8 Jun 90 10:36:00 PDT
  9587. From: mendel (Mendel Rosenblum)
  9588. Subject: Re: more socket bug
  9589.  
  9590. This is a bug in the file system.   The dup2 system call should clear the
  9591. close-on-exec flag but it doesn't.   A simple patch would be to clear
  9592. the close-on-exec flag after the dup.  For example, in routine startup(i)
  9593. in file test.c change:
  9594.  
  9595.     if((proc_id = fork()) == 0){
  9596.     {
  9597.                dup2(i, Portfd);
  9598.                printf("new Portfd: %d\n", Portfd);
  9599.          execl("testsocket", "testsocket", 0);
  9600.         }
  9601.  
  9602. to 
  9603.  
  9604.     if((proc_id = fork()) == 0){
  9605.         {
  9606.                 dup2(i, Portfd);
  9607. #ifdef sprite
  9608.         /*
  9609.           * Patch bug in dup2() on Sprite that doesn't clear
  9610.          * close-on-exec flag.
  9611.          */
  9612.         (void) fcntl(Portfd, F_SETFD, 0);
  9613. #endif
  9614.                 printf("new Portfd: %d\n", Portfd);
  9615.                 execl("testsocket", "testsocket", 0);
  9616.         }
  9617.  
  9618.   Mendel
  9619.  
  9620.  
  9621.  
  9622.  
  9623. 1287.
  9624. Date: Sat, 9 Jun 90 18:30:06 PDT
  9625. From: shirriff (Ken Shirriff)
  9626. Subject: lpr kills sage
  9627.  
  9628. Whenever I try to print something on sage, the machine locks up and
  9629. doesn't respond to the keyboard or ping.  This happened with several
  9630. different kernels (after rebooting).  I just noticed the printer was
  9631. turned off, and it works with the printer on.  So the problem is that
  9632. if the printer's off, the machine wedges up.
  9633.  
  9634.  
  9635.  
  9636.  
  9637. 1288.
  9638. Date: Sat, 09 Jun 90 18:33:05 PDT
  9639. From: tve (Thorsten von Eicken)
  9640. Subject: Re: lpr kills sage 
  9641.  
  9642. Yep, same thing if there's a tty connected and that's off. I have a tty
  9643. on crackle and
  9644. I better not turn it off. Curiously if I hit L1-a and type "c<return>"
  9645. things work again
  9646. until some tty buffer is empty/full.
  9647.  
  9648.  
  9649.  
  9650.  
  9651. 1289.
  9652. Date: Sun, 10 Jun 90 10:03:43 PDT
  9653. From: ouster (John Ousterhout)
  9654. Subject: Corrupted file on /mic
  9655.  
  9656. The checksummer found the following file to be corrupted this morning:
  9657. /mic/wlo/AES.3/16d/saram3Tcontrol.sdl
  9658.  
  9659. allspice-4# fsindex -dev rsd02 -part c saram3Tcontrol.sdl
  9660. saram3Tcontrol.sdl   Desc 48602 size 1588 kbytes 2 version
  9661.            0:    56648   -1  * 2 frag(s) offset 0
  9662. saram3Tcontrol.sdl   1 blocks 1 seeks
  9663. allspice-5# ls -l saram3Tcontrol.sdl
  9664. -rw-r--r--  1 wlo          1588 Mar 22 18:27 saram3Tcontrol.sdl
  9665.  
  9666. Once again, it's fragment 1 of the block that has been corrupted.  The
  9667. corruption looks like a log of some CAD program.
  9668.  
  9669.  
  9670.  
  9671.  
  9672. 1290.
  9673. Date: Sun, 10 Jun 90 18:41:07 PDT
  9674. From: elm (ethan miller)
  9675. Subject: mysterious mail file deletion
  9676.  
  9677. This is a major bug.  For some unknown reason, my mail spool file
  9678. has just disappeared.  It happened immediately after I was
  9679. auto-logged out while using the new tcsh Fred installed on the
  9680. sun4c.  I don't know whether this is a shell bug or a mail bug,
  9681. but either way, it's pretty serious.  If possible, I'd like to
  9682. get my mail file restored from the latest possible te as well.
  9683.  
  9684. thanks
  9685.  
  9686.  
  9687.  
  9688. 1291.
  9689. Date: Sun, 10 Jun 90 18:44:06 PDT
  9690. From: Fred Douglis <douglis>
  9691. Subject: Re: strange problem with tcsh 
  9692.  
  9693. [this is in regard to the strange tcsh problem that ethan encountered.
  9694. i don't know why it would cause ethan's mail to disappear, but i do
  9695. know what caused the auto-logout.]
  9696.  
  9697. turns out there's a problem with setting the policy == 4 -- if you
  9698. foreground something and it tries to migrate, it sets an alarm and
  9699. then does the wrong action trying to handle the alarm (thinks its
  9700. autologout mechanism has kicked in).  i will attempt to disable
  9701. auto-logout completely to fix that problem and then install a new
  9702. tcsh. 
  9703.  
  9704.  
  9705.  
  9706.  
  9707. 1292.
  9708. Date: Sun, 10 Jun 90 19:25:58 PDT
  9709. From: douglis (Fred Douglis)
  9710. Subject: restoring files
  9711.  
  9712. I wanted to restore ethan's mail file for him without him having to 
  9713. wait for bob to be around.  problem is, i see nothing in
  9714. the restore man page or the howto file that would
  9715. explain how to restore a file to a different path.  since i don't
  9716. want to risk clobbering ethan's mailbox with old mail 
  9717. superseding new mail, i decided not to touch it.  is there a way
  9718. to do this, and if not, can we make it so there is?  if so,
  9719. can this be added to the appropriate files?  from what i 
  9720. can see, the howto file is extremely out of date.
  9721.  
  9722.  
  9723.  
  9724.  
  9725. 1293.
  9726. Date: Sun, 10 Jun 1990 20:37:23 PDT
  9727. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  9728. Subject: hijack problems
  9729.  
  9730. Hijack has been exhibiting behavior where it goes into a tight loop
  9731. complaining about a tlb fault or something (its hard to read the
  9732. console since its flying by so fast).  It does not go into the
  9733. debugger.  When I reset it it fails diagnostics.  Typing 
  9734. "t d"  (disk ram test) fails.  Perhaps a repair person should
  9735. look at it.  I'm not sure if the two problems are related --
  9736. lets fix the latter and see if the former goes away.
  9737.  
  9738.  
  9739.  
  9740.  
  9741. 1294.
  9742. Date: Mon, 11 Jun 90 09:56:15 PDT
  9743. From: Fred Douglis <douglis>
  9744. Subject: gluttony crashes 
  9745.  
  9746. i asked johnw why he was running a program in an infinite loop to keep his
  9747. machine busy.  his response:
  9748.  
  9749.  
  9750. ------- Forwarded Message
  9751.  
  9752. Date:    Mon, 11 Jun 90 09:22:13 -0700 
  9753. From:    johnw@sprite.Berkeley.EDU (John Wawrzynek)
  9754. To:      douglis@sprite.Berkeley.EDU
  9755. Subject: Re: busy gluttony 
  9756.  
  9757. I've been running ~johnw/misc/busy.c to see if keeping the processor busy
  9758. has anything to do with a series of TLB faults at 800bf8f8.  In fact,
  9759. I've had no crases since I've been running it.
  9760.  
  9761. Sorry to throw off your statistics.  I will gladly turn if off if
  9762. there is someone who can look at my crashes.  Thanks.
  9763.  
  9764. - -JohnW
  9765.  
  9766. ------- End of Forwarded Message
  9767.  
  9768. gluttony is no longer running the vov master, i think.  but it might still
  9769. have been crashing due to other things. (kvetching died this morning
  9770. around 8 -- haven't yet debugged it but will in a moment.  
  9771. probably someone else migrating onto it, but i'll see.)  in any case,
  9772. the question is whether gluttony is staying up because no one is running
  9773. anything interesting on it anymore (w/ the load so high no one will migrate
  9774. onto it) or whether keeping the processor busy really does make a difference.
  9775.  
  9776.  
  9777.  
  9778.  
  9779. 1295.
  9780. Date: Mon, 11 Jun 90 10:35:17 PDT
  9781. From: Fred Douglis <douglis>
  9782. Subject: ds3100 TLB crash
  9783.  
  9784. kvetching died in Fs_SelectStub with the indirection through
  9785. streamPtr->ioHandlePtr->fileID.type].select.  the running process was
  9786. inetd, and it died because the streamPtr corresponding to netTCP had a
  9787. NIL ioHandlePtr. 
  9788.  
  9789.  
  9790.  
  9791.  
  9792. 1296.
  9793. Date: Mon, 11 Jun 90 11:32:50 PDT
  9794. From: Fred Douglis <douglis>
  9795. Subject: hung wall rpcs wedge system
  9796.  
  9797. treason has been hung up since sometime last night.  i took an initial
  9798. stab at debugging it, thinking maybe it was the migration deadlock i
  9799. sent mail about a few days ago, but it turns out to be because of all
  9800. the wall's you've done since treason rebooted!  there are 8 RPC
  9801. servers wedged up with hung RPCs to rlogin pdevs.  As a result, other
  9802. stuff is wedged up because they can't get RPC channels.  also, a lot
  9803. of rpc servers are in Recov_HostAlive waiting for someone else to
  9804. complete recovery, i think.  
  9805.  
  9806.  
  9807.  
  9808.  
  9809. $X#
  9810. Date: Mon, 11 Jun 90 17:55:09 PDT
  9811. From: shirriff (Ken Shirriff)
  9812. Subject: Re: Deadlock in fscache
  9813.  
  9814. > From: sequent!fubar@uunet.uu.net
  9815. > Right now I get (twice so far):
  9816. > 03: Fatal Error: Fsio_LocalFileHandleInit, found handle with no descPtr
  9817.  
  9818. I've looked through the code, and the only way I can see this is in
  9819. Fsio_FileCloseInt.  It does the following:
  9820.  
  9821.     (void)Fslcl_DeleteFileDesc(handlePtr);
  9822.     if (callback) {
  9823.     Fsutil_HandleRelease(handlePtr, TRUE);
  9824.     }
  9825.     Fsutil_HandleRemove(handlePtr);
  9826.  
  9827. This deletes the descriptor and sets descPtr = NIL.
  9828. Then it unlocks and releases the handle.  Then it removes the handle.
  9829. If another process grabs the handle after it's unlocked, but
  9830. before it's been removed, it will get the handle with descPtr = NIL.
  9831. I think the fix is to remove the handle and then release it with
  9832. Fsutil_HandleRelease(handlePtr, FALSE);
  9833.  
  9834.  
  9835.  
  9836.  
  9837. $X#
  9838. Date: Tue, 12 Jun 90 19:25:30 PDT
  9839. From: schauser (Klaus Erik Schauser)
  9840. Subject: Paprika goes down
  9841.  
  9842. Paprika goes down very often when running the new X11R4.
  9843. It just stops accepting any input. Even when pressing L1 a, no
  9844. input will be accepted, so to reboot it we always need to switch it off.
  9845. We would very much appreciate if you could take a look at it, because
  9846. it is not possible to work longer than 20 min at the moment before
  9847. it happens.
  9848.  
  9849.  
  9850.  
  9851.  
  9852. $X#
  9853. Date: Thu, 14 Jun 90 12:16:54 PDT
  9854. From: culler (David Culler)
  9855. Subject: ioctl: bad command TIOCNOTTY
  9856.  
  9857.  
  9858. Shows up when on:
  9859.  
  9860. enscript -2r -G -Pms [filename]
  9861.  
  9862.  
  9863.  
  9864. $X#
  9865. Date: Fri, 15 Jun 90 14:29:59 PDT
  9866. From: douglis@rosemary.Berkeley.EDU (Fred Douglis)
  9867. Subject: oregano out of memory
  9868.  
  9869. oregano crashed, and this time i was able to print a dump of
  9870. its memory.
  9871.  
  9872. the relevant counters:
  9873.  
  9874. size    in use
  9875. 24    44558
  9876. 32    28623
  9877. 48    4494
  9878. 72    3471
  9879. 88    2921
  9880. 136    1132
  9881. 328    1132
  9882. total alloc: 4784384, freed 935528.
  9883.  
  9884. the large objects were not allocated much, only 2 or 3 max.
  9885.  
  9886.  
  9887.  
  9888.  
  9889. $X#
  9890. Date: Sat, 16 Jun 90 10:51:27 PDT
  9891. From: ouster (John Ousterhout)
  9892. Subject: Mint crash, plus bad reboot instructions
  9893.  
  9894. Mint was catatonic when I came in this morning.  It took two reboots
  9895. to get it up again.  The first reboot hung part-way through recovery
  9896. after printing a mysterious dangling "F" on the syslog (sounds a bit
  9897. like the deadlocks during shutdown?).
  9898.  
  9899. Mary, can you fix the reboot instructions you left on Mint's console?
  9900. They vaguely mention a kernel "sun3.MB.084 on ginger" but don't give
  9901. any instructions about how to actually boot this beast.  I first had
  9902. to deduce the machine address (0,961c,43), and then had to login to
  9903. Ginger and probe around to discover that the kernel is in
  9904. tmp/sun3.MB.084.  Although I was able to figure this out, I doubt
  9905. that a non-Spriter would have been able to figure it out.  Can you
  9906. redo the note to be much more explicit about EXACTLY what to do to
  9907. reboot?  Also, at this point I think the note probably shouldn't
  9908. mention sun3.new as a fall-back kernel;  given the recovery storm
  9909. problems, it won't get through recovery, will it?
  9910.  
  9911.  
  9912.  
  9913.  
  9914. $X#
  9915. Date: Sat, 16 Jun 90 15:45:19 PDT
  9916. From: ouster (John Ousterhout)
  9917. Subject: File corruption
  9918.  
  9919. While we were at USENIX another file corruption occurred, in file
  9920. /sprite/lib/fonts/pk/ilcmssi8.746pk.  The file inherited a piece of
  9921. a mail message (actually, the entire message) from John Hartman.
  9922. Unfortunately, the actual corruption seems to have occured on Monday,
  9923. at a time when Mint was running a kernel without instrumentation, so
  9924. there was nothing about the file in the trace logs.  As usual, the
  9925. corruption occurred in the second fragment of a block:
  9926.  
  9927. mint-2# ls -l ilcmssi8.746pk
  9928. -rw-rw-r--  1 root         1464 Oct 25  1987 ilcmssi8.746pk
  9929. mint-3# fsindex -dev rxy0 -part g ilcmssi8.746pk  
  9930. ilcmssi8.746pk       Desc 58529 size 1464 kbytes 2 version
  9931.            0:    44268   -1  * 2 frag(s) offset 0
  9932. ilcmssi8.746pk       1 blocks 1 seeks
  9933.  
  9934.  
  9935.  
  9936.  
  9937. $X#
  9938. Date: Sat, 16 Jun 90 16:05:43 PDT
  9939. From: ouster (John Ousterhout)
  9940. Subject: Another file corruption on /mic
  9941.  
  9942. /mic/tve/Mail/ARRIVAL/#32 was corrupted while we were gone.  The
  9943. end of the file inherited the following data:
  9944.  
  9945.     Return-Path: <ucbvax!scam.Berkeley.EDU!latta>
  9946.     Received: by  cnmat  (NeXT-1.0 (From Sendmail 5.52)/NeXT-1.0)
  9947.         id AA03048; Tue, 12 Jun 90 15:31:42 GMT-0800
  9948.     id     id6920
  9949.     ms     bc1b-81
  9950.     folio     157v
  9951.     stanza     2
  9952.     file     bc1t6
  9953.     line     210
  9954.     %%%%%
  9955.  
  9956. Looks like some sort of log output (music-related?).  The usual fsindex
  9957. information is below.  Bob, can you restore this file from backup?
  9958.  
  9959.     allspice-3# cd /mic/tve/Mail/ARRIVAL
  9960.     allspice-4# fsindex -dev rsd02 -part c #32
  9961.     #32                  Desc 104636 size 1453 kbytes 2 version
  9962.            0:    24240   -1  * 2 frag(s) offset 0
  9963.     #32                  1 blocks 1 seeks
  9964.     allspice-5# ls -l #32 
  9965.     -rw-r--r--  1 tve          1453 Jun 12 19:52 #32
  9966.  
  9967.  
  9968.  
  9969.  
  9970.  
  9971. $X#
  9972. Date: Sun, 17 Jun 90 21:53:34 PDT
  9973. From: mgbaker (Mary Gray Baker)
  9974. Subject: mint crash
  9975.  
  9976. I think we forgot to mail this out.  Mint crashed this afternoon with
  9977. disk errors.  When we tried to reboot it, we got a Fatal Error that turns out
  9978. not to be a deadlock.  The call-back queue is getting full because of a probable
  9979. bug in my NegAck stuff and because processes are piling up waiting for an
  9980. interrupt to tell them their network packets have been sent.
  9981.  
  9982.  
  9983.  
  9984.  
  9985. $X#
  9986. Date: Mon, 18 Jun 90 13:33:58 PDT
  9987. From: tve (Thorsten von Eicken)
  9988. Subject: assault crash
  9989.  
  9990. Assault crashed this morning with a TLB load address error exception
  9991. at PC0x800c06c0. I rebooted it. The instructions are not clear: am I
  9992. supposed to reboot tftp()new (as printed n the sheet) or with rz()ds3100
  9993. (as hand-written in big letters on the same sheet). Just for grins
  9994. I used neither and rebooted with rz()new... (hehe) That booted 1.065, is
  9995. that old?
  9996. Also, I wondered why assault checks all its disks sequentially? It takes
  9997. forever!@#$%^&*(
  9998.  
  9999.  
  10000.  
  10001.  
  10002. $X#
  10003. Date: Tue, 19 Jun 90 09:38:24 PDT
  10004. From: tve (Thorsten von Eicken)
  10005. Subject: allspice has very high load
  10006.  
  10007. Allspice's load average seems pretty high: always around 1. I did a ps
  10008. to see who was using the cput time and about 50% were chewed-up by
  10009. ntalkd. However the total cpu minutes used by ntalkd were not very
  10010. high. A few minutes later, the original ntalkd had died and a new
  10011. one was using the same 50% cpu. Mhhhhhhh, bizarre.  Well, let's
  10012. see if it calms down afetr today's shutdown (machine room work).
  10013. Just thought I'd signal this...
  10014.  
  10015.  
  10016.  
  10017.  
  10018. $X#
  10019. Date: Wed, 20 Jun 90 11:44:19 PDT
  10020. From: stolcke (Andreas Stolcke)
  10021. Subject: popen() not declared in stdio.h
  10022.  
  10023. The subject line says it all.
  10024.  
  10025.  
  10026.  
  10027.  
  10028. $X#
  10029. Date: Wed, 20 Jun 90 18:19:57 PDT
  10030. From: Fred Douglis <douglis>
  10031. Subject: Re: allspice has very high load 
  10032.  
  10033. i've seen this before; thought i'd reported it but perhaps not.  it
  10034. has required killing off and restarting inetd.  we should definitely
  10035. try to track down inetd's flakiness...
  10036.  
  10037.  
  10038.  
  10039.  
  10040. $X#
  10041. Date: Thu, 21 Jun 90 08:50:01 PDT
  10042. From: ouster (John Ousterhout)
  10043. Subject: Corrupted file
  10044.  
  10045. This time it was a file on /user1:  /user1/sah/mail/ernie/sumjob/IBMiannuci.
  10046.  
  10047.     allspice-2# ls -l IBMiannuci
  10048.     -rw-r--r--  1 sah            30 Jun 14 16:18 IBMiannuci
  10049.     allspice-3# fsindex -dev rsd01 -part c IBMiannuci
  10050.     IBMiannuci           Desc 64926 size 30 kbytes 1 version
  10051.            0:   225081   -1  * 1 frag(s) offset 1
  10052.     IBMiannuci           1 blocks 1 seeks
  10053.  
  10054.  
  10055. $X#
  10056. Date: Thu, 21 Jun 90 09:18:44 PDT
  10057. From: ouster (John Ousterhout)
  10058. Subject: Corrupted file
  10059.  
  10060. /mic/johnw/dpp/ncube/msg/justsend.c got the shaft this time: weird-looking
  10061. numbers in the second (last) fragment of the file.  If this keeps up
  10062. I may have to start tracing /mic allocations.
  10063.  
  10064.     allspice-8# ls -l justsend.c
  10065.     -rw-rw-r--  1 johnw        1514 Jun 15 20:53 justsend.c
  10066.     allspice-9# fsindex -dev rsd02 -part c justsend.c
  10067.     justsend.c           Desc 136018 size 1514 kbytes 2 version
  10068.            0:       40   -1  * 2 frag(s) offset 0
  10069.     justsend.c           1 blocks 1 seeks
  10070.     allspice-10# tail justsend.c
  10071.         char    *buf;        /* Message data */
  10072.         int    i;        /* Index */
  10073.         int    repeat=100;    /* Number of times to repeat message */
  10074.         double    single;        /* Time for message in microseconds */
  10075.         int    debug = 0;    /* Flag to print debug messages */
  10076.         char    *getenv();    /* Get runtime environment */
  10077.  
  10078.         whoami(&me, &proc, &host, &alt.sex.bondage
  10079.     645814928
  10080.     21452
  10081.  
  10082.  
  10083. $X#
  10084. Date: Thu, 21 Jun 1990 18:32:27 PDT
  10085. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  10086. Subject: rdate broken?
  10087.  
  10088. I've noticed that a couple of machines were about 5 minutes out of sync
  10089. with mint.  Is the rdate in the crontab not working?
  10090.  
  10091.  
  10092.  
  10093.  
  10094. $X#
  10095. Date: Thu, 21 Jun 90 22:26:53 PDT
  10096. From: Fred Douglis <douglis>
  10097. Subject: problem installing symlinks in kernel area
  10098.  
  10099. when doing "make install" in a directory such as libc, with symlinks
  10100. to ../../lib/net/*.c, the symlink is copied verbatim, so it no longer
  10101. points to a valid file.  then the snapshot script tries to follow the
  10102. link and can't.
  10103.  
  10104.  
  10105.  
  10106.  
  10107. $X#
  10108. Date: Fri, 22 Jun 90 12:19:09 PDT
  10109. From: shirriff (Ken Shirriff)
  10110. Subject: pdev.c problems
  10111.  
  10112. The Pdev routines in /sprite/src/lib/c/etc/pdev.c have various problems.  In
  10113. particular, some of the default handlers take the wrong number of arguments,
  10114. or expect the wrong type of argument (see lint for details).  Things
  10115. probably work since most of these arguments aren't used, but someone who
  10116. knows the pdev stuff should make sure everything is right.
  10117.  
  10118.  
  10119.  
  10120. $X#
  10121. Date: Fri, 22 Jun 90 14:49:32 PDT
  10122. From: root (The Sprite God)
  10123. Subject: allspice inetd restarted
  10124.  
  10125. someone complained that finger @sprite was refused.  restarting inetd fixed
  10126. the problem. this is one flaky program.
  10127.  
  10128.  
  10129.  
  10130.  
  10131. $X#
  10132. Date: Fri, 22 Jun 1990 15:42:36 PDT
  10133. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  10134. Subject: kgdb.sun3 broken
  10135.  
  10136. I frequently cannot print out the contents of a variable when debugging
  10137. a sun3.  I get something similar to the following:
  10138.  
  10139. (gdb) p virtPage
  10140. No symbol "virtPage" in current context.
  10141.  
  10142.  
  10143.  
  10144.  
  10145. $X#
  10146. Date: Fri, 22 Jun 90 15:47:20 PDT
  10147. From: Fred Douglis <douglis>
  10148. Subject: kgdb.sun4 broken too
  10149.  
  10150. last night, i spent some unconscionable amount of time trying to debug
  10151. my migration fix, because the line at which i was told the error
  10152. occurred was actually one or two statements before the line that
  10153. actually caused the problem.  furthermore, the register variable i was
  10154. looking at claimed to be 0, which would have explained the bad pointer
  10155. i hit. so, i spent my time trying to figure out how the pointer
  10156. suddenly became 0 rather than seeing that it was a completely
  10157. different pointer hitting the error.  
  10158.  
  10159. that's ALMOST as bad as trying to use kdbx on a ds3100.  but not
  10160. quite.... 
  10161.  
  10162.  
  10163.  
  10164.  
  10165. $X#
  10166. Date: Fri, 22 Jun 90 15:50:51 PDT
  10167. From: tve (Thorsten von Eicken)
  10168. Subject: Re: kgdb.sun4 broken too 
  10169.  
  10170. Did you compile with the -O flag?  If you did (default in the makefile) you should
  10171. know that debugging is approximate. I.e. things might not get executed in the
  10172. same order as in the source.
  10173. I just would like to point out that all these problems are in the
  10174. normal gdb too. Plus
  10175. problems with continuing after breakpoints (looks like jhh's fix a few weeks ago
  10176. fixed dbx and broke gdb?).
  10177.  
  10178.  
  10179.  
  10180.  
  10181. $X#
  10182. Date: Fri, 22 Jun 90 16:17:18 PDT
  10183. From: tve (Thorsten von Eicken)
  10184. Subject: can't mail to davidson.cs.sandia.gov - host unknown
  10185.  
  10186. Is the mailer brain-damaged, or am I expecting too much?
  10187.  
  10188. ------- Forwarded Message
  10189.  
  10190. Return-Path: tve
  10191. Received: by sprite.Berkeley.EDU (5.59/1.29)
  10192.     id AA997247; Fri, 22 Jun 90 16:15:34 PDT
  10193. Date: Fri, 22 Jun 90 16:15:34 PDT
  10194. From: MAILER-DAEMON (Mail Delivery Subsystem)
  10195. Subject: Returned mail: Host unknown
  10196. Message-Id: <9006222315.AA997247@sprite.Berkeley.EDU>
  10197. To: tve
  10198.  
  10199.    ----- Transcript of session follows -----
  10200. 550 gsdavid@davidson.cs.sandia.gov... Host unknown
  10201.  
  10202.    ----- Unsent message follows -----
  10203. Received: by sprite.Berkeley.EDU (5.59/1.29)
  10204.     id AA931709; Fri, 22 Jun 90 16:15:34 PDT
  10205. Date: Fri, 22 Jun 90 16:15:34 PDT
  10206. From: tve (Thorsten von Eicken)
  10207. Message-Id: <9006222315.AA931709@sprite.Berkeley.EDU>
  10208. To: gsdavid@davidson.cs.sandia.gov
  10209. Subject: test
  10210.  
  10211.  
  10212.  
  10213. ------- End of Forwarded Message
  10214.  
  10215.  
  10216.  
  10217. $X#
  10218. Date: Fri, 22 Jun 90 17:16:58 PDT
  10219. From: elm (ethan miller)
  10220. Subject: memory leak?
  10221.  
  10222. After quite a while (7+ days), my SparcStation gets extremely slow when
  10223. it's running X.  Exiting X and restarting it doesn't do any good.  Only
  10224. restarting the machine seems to help.  I checked, and it wasn't being
  10225. caused by migrated processes or anything else like that.  This isn't
  10226. the first time I've noticed it, either.  I guess it's not serious,
  10227. but someone should know about it.
  10228.  
  10229.  
  10230.  
  10231. 1297.
  10232. Date: Mon, 11 Jun 90 17:55:09 PDT
  10233. From: shirriff (Ken Shirriff)
  10234. Subject: Re: Deadlock in fscache
  10235.  
  10236. > From: sequent!fubar@uunet.uu.net
  10237. > Right now I get (twice so far):
  10238. > 03: Fatal Error: Fsio_LocalFileHandleInit, found handle with no descPtr
  10239.  
  10240. I've looked through the code, and the only way I can see this is in
  10241. Fsio_FileCloseInt.  It does the following:
  10242.  
  10243.     (void)Fslcl_DeleteFileDesc(handlePtr);
  10244.     if (callback) {
  10245.     Fsutil_HandleRelease(handlePtr, TRUE);
  10246.     }
  10247.     Fsutil_HandleRemove(handlePtr);
  10248.  
  10249. This deletes the descriptor and sets descPtr = NIL.
  10250. Then it unlocks and releases the handle.  Then it removes the handle.
  10251. If another process grabs the handle after it's unlocked, but
  10252. before it's been removed, it will get the handle with descPtr = NIL.
  10253. I think the fix is to remove the handle and then release it with
  10254. Fsutil_HandleRelease(handlePtr, FALSE);
  10255.  
  10256.  
  10257.  
  10258.  
  10259. 1298.
  10260. Date: Tue, 12 Jun 90 19:25:30 PDT
  10261. From: schauser (Klaus Erik Schauser)
  10262. Subject: Paprika goes down
  10263.  
  10264. Paprika goes down very often when running the new X11R4.
  10265. It just stops accepting any input. Even when pressing L1 a, no
  10266. input will be accepted, so to reboot it we always need to switch it off.
  10267. We would very much appreciate if you could take a look at it, because
  10268. it is not possible to work longer than 20 min at the moment before
  10269. it happens.
  10270.  
  10271.  
  10272.  
  10273.  
  10274. 1299.
  10275. Date: Thu, 14 Jun 90 12:16:54 PDT
  10276. From: culler (David Culler)
  10277. Subject: ioctl: bad command TIOCNOTTY
  10278.  
  10279.  
  10280. Shows up when on:
  10281.  
  10282. enscript -2r -G -Pms [filename]
  10283.  
  10284.  
  10285.  
  10286. 1300.
  10287. Date: Fri, 15 Jun 90 14:29:59 PDT
  10288. From: douglis@rosemary.Berkeley.EDU (Fred Douglis)
  10289. Subject: oregano out of memory
  10290.  
  10291. oregano crashed, and this time i was able to print a dump of
  10292. its memory.
  10293.  
  10294. the relevant counters:
  10295.  
  10296. size    in use
  10297. 24    44558
  10298. 32    28623
  10299. 48    4494
  10300. 72    3471
  10301. 88    2921
  10302. 136    1132
  10303. 328    1132
  10304. total alloc: 4784384, freed 935528.
  10305.  
  10306. the large objects were not allocated much, only 2 or 3 max.
  10307.  
  10308.  
  10309.  
  10310.  
  10311. 1301.
  10312. Date: Sat, 16 Jun 90 10:51:27 PDT
  10313. From: ouster (John Ousterhout)
  10314. Subject: Mint crash, plus bad reboot instructions
  10315.  
  10316. Mint was catatonic when I came in this morning.  It took two reboots
  10317. to get it up again.  The first reboot hung part-way through recovery
  10318. after printing a mysterious dangling "F" on the syslog (sounds a bit
  10319. like the deadlocks during shutdown?).
  10320.  
  10321. Mary, can you fix the reboot instructions you left on Mint's console?
  10322. They vaguely mention a kernel "sun3.MB.084 on ginger" but don't give
  10323. any instructions about how to actually boot this beast.  I first had
  10324. to deduce the machine address (0,961c,43), and then had to login to
  10325. Ginger and probe around to discover that the kernel is in
  10326. tmp/sun3.MB.084.  Although I was able to figure this out, I doubt
  10327. that a non-Spriter would have been able to figure it out.  Can you
  10328. redo the note to be much more explicit about EXACTLY what to do to
  10329. reboot?  Also, at this point I think the note probably shouldn't
  10330. mention sun3.new as a fall-back kernel;  given the recovery storm
  10331. problems, it won't get through recovery, will it?
  10332.  
  10333.  
  10334.  
  10335.  
  10336. 1302.
  10337. Date: Sat, 16 Jun 90 15:45:19 PDT
  10338. From: ouster (John Ousterhout)
  10339. Subject: File corruption
  10340.  
  10341. While we were at USENIX another file corruption occurred, in file
  10342. /sprite/lib/fonts/pk/ilcmssi8.746pk.  The file inherited a piece of
  10343. a mail message (actually, the entire message) from John Hartman.
  10344. Unfortunately, the actual corruption seems to have occured on Monday,
  10345. at a time when Mint was running a kernel without instrumentation, so
  10346. there was nothing about the file in the trace logs.  As usual, the
  10347. corruption occurred in the second fragment of a block:
  10348.  
  10349. mint-2# ls -l ilcmssi8.746pk
  10350. -rw-rw-r--  1 root         1464 Oct 25  1987 ilcmssi8.746pk
  10351. mint-3# fsindex -dev rxy0 -part g ilcmssi8.746pk  
  10352. ilcmssi8.746pk       Desc 58529 size 1464 kbytes 2 version
  10353.            0:    44268   -1  * 2 frag(s) offset 0
  10354. ilcmssi8.746pk       1 blocks 1 seeks
  10355.  
  10356.  
  10357.  
  10358.  
  10359. 1303.
  10360. Date: Sat, 16 Jun 90 16:05:43 PDT
  10361. From: ouster (John Ousterhout)
  10362. Subject: Another file corruption on /mic
  10363.  
  10364. /mic/tve/Mail/ARRIVAL/#32 was corrupted while we were gone.  The
  10365. end of the file inherited the following data:
  10366.  
  10367.     Return-Path: <ucbvax!scam.Berkeley.EDU!latta>
  10368.     Received: by  cnmat  (NeXT-1.0 (From Sendmail 5.52)/NeXT-1.0)
  10369.         id AA03048; Tue, 12 Jun 90 15:31:42 GMT-0800
  10370.     id     id6920
  10371.     ms     bc1b-81
  10372.     folio     157v
  10373.     stanza     2
  10374.     file     bc1t6
  10375.     line     210
  10376.     %%%%%
  10377.  
  10378. Looks like some sort of log output (music-related?).  The usual fsindex
  10379. information is below.  Bob, can you restore this file from backup?
  10380.  
  10381.     allspice-3# cd /mic/tve/Mail/ARRIVAL
  10382.     allspice-4# fsindex -dev rsd02 -part c #32
  10383.     #32                  Desc 104636 size 1453 kbytes 2 version
  10384.            0:    24240   -1  * 2 frag(s) offset 0
  10385.     #32                  1 blocks 1 seeks
  10386.     allspice-5# ls -l #32 
  10387.     -rw-r--r--  1 tve          1453 Jun 12 19:52 #32
  10388.  
  10389.  
  10390.  
  10391.  
  10392.  
  10393. 1304.
  10394. Date: Sun, 17 Jun 90 21:53:34 PDT
  10395. From: mgbaker (Mary Gray Baker)
  10396. Subject: mint crash
  10397.  
  10398. I think we forgot to mail this out.  Mint crashed this afternoon with
  10399. disk errors.  When we tried to reboot it, we got a Fatal Error that turns out
  10400. not to be a deadlock.  The call-back queue is getting full because of a probable
  10401. bug in my NegAck stuff and because processes are piling up waiting for an
  10402. interrupt to tell them their network packets have been sent.
  10403.  
  10404.  
  10405.  
  10406.  
  10407. 1305.
  10408. Date: Mon, 18 Jun 90 13:33:58 PDT
  10409. From: tve (Thorsten von Eicken)
  10410. Subject: assault crash
  10411.  
  10412. Assault crashed this morning with a TLB load address error exception
  10413. at PC0x800c06c0. I rebooted it. The instructions are not clear: am I
  10414. supposed to reboot tftp()new (as printed n the sheet) or with rz()ds3100
  10415. (as hand-written in big letters on the same sheet). Just for grins
  10416. I used neither and rebooted with rz()new... (hehe) That booted 1.065, is
  10417. that old?
  10418. Also, I wondered why assault checks all its disks sequentially? It takes
  10419. forever!@#%%^&*(
  10420.  
  10421.  
  10422.  
  10423.  
  10424. 1306.
  10425. Date: Tue, 19 Jun 90 09:38:24 PDT
  10426. From: tve (Thorsten von Eicken)
  10427. Subject: allspice has very high load
  10428.  
  10429. Allspice's load average seems pretty high: always around 1. I did a ps
  10430. to see who was using the cput time and about 50% were chewed-up by
  10431. ntalkd. However the total cpu minutes used by ntalkd were not very
  10432. high. A few minutes later, the original ntalkd had died and a new
  10433. one was using the same 50% cpu. Mhhhhhhh, bizarre.  Well, let's
  10434. see if it calms down afetr today's shutdown (machine room work).
  10435. Just thought I'd signal this...
  10436.  
  10437.  
  10438.  
  10439.  
  10440. 1307.
  10441. Date: Wed, 20 Jun 90 11:44:19 PDT
  10442. From: stolcke (Andreas Stolcke)
  10443. Subject: popen() not declared in stdio.h
  10444.  
  10445. The subject line says it all.
  10446.  
  10447.  
  10448.  
  10449.  
  10450. 1308.
  10451. Date: Wed, 20 Jun 90 18:19:57 PDT
  10452. From: Fred Douglis <douglis>
  10453. Subject: Re: allspice has very high load 
  10454.  
  10455. i've seen this before; thought i'd reported it but perhaps not.  it
  10456. has required killing off and restarting inetd.  we should definitely
  10457. try to track down inetd's flakiness...
  10458.  
  10459.  
  10460.  
  10461.  
  10462. 1309.
  10463. Date: Thu, 21 Jun 90 08:50:01 PDT
  10464. From: ouster (John Ousterhout)
  10465. Subject: Corrupted file
  10466.  
  10467. This time it was a file on /user1:  /user1/sah/mail/ernie/sumjob/IBMiannuci.
  10468.  
  10469.     allspice-2# ls -l IBMiannuci
  10470.     -rw-r--r--  1 sah            30 Jun 14 16:18 IBMiannuci
  10471.     allspice-3# fsindex -dev rsd01 -part c IBMiannuci
  10472.     IBMiannuci           Desc 64926 size 30 kbytes 1 version
  10473.            0:   225081   -1  * 1 frag(s) offset 1
  10474.     IBMiannuci           1 blocks 1 seeks
  10475.  
  10476.  
  10477. 1310.
  10478. Date: Thu, 21 Jun 90 09:18:44 PDT
  10479. From: ouster (John Ousterhout)
  10480. Subject: Corrupted file
  10481.  
  10482. /mic/johnw/dpp/ncube/msg/justsend.c got the shaft this time: weird-looking
  10483. numbers in the second (last) fragment of the file.  If this keeps up
  10484. I may have to start tracing /mic allocations.
  10485.  
  10486.     allspice-8# ls -l justsend.c
  10487.     -rw-rw-r--  1 johnw        1514 Jun 15 20:53 justsend.c
  10488.     allspice-9# fsindex -dev rsd02 -part c justsend.c
  10489.     justsend.c           Desc 136018 size 1514 kbytes 2 version
  10490.            0:       40   -1  * 2 frag(s) offset 0
  10491.     justsend.c           1 blocks 1 seeks
  10492.     allspice-10# tail justsend.c
  10493.         char    *buf;        /* Message data */
  10494.         int    i;        /* Index */
  10495.         int    repeat=100;    /* Number of times to repeat message */
  10496.         double    single;        /* Time for message in microseconds */
  10497.         int    debug = 0;    /* Flag to print debug messages */
  10498.         char    *getenv();    /* Get runtime environment */
  10499.  
  10500.         whoami(&me, &proc, &host, &alt.sex.bondage
  10501.     645814928
  10502.     21452
  10503.  
  10504.  
  10505. 1311.
  10506. Date: Thu, 21 Jun 1990 18:32:27 PDT
  10507. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  10508. Subject: rdate broken?
  10509.  
  10510. I've noticed that a couple of machines were about 5 minutes out of sync
  10511. with mint.  Is the rdate in the crontab not working?
  10512.  
  10513.  
  10514.  
  10515.  
  10516. 1312.
  10517. Date: Thu, 21 Jun 90 22:26:53 PDT
  10518. From: Fred Douglis <douglis>
  10519. Subject: problem installing symlinks in kernel area
  10520.  
  10521. when doing "make install" in a directory such as libc, with symlinks
  10522. to ../../lib/net/*.c, the symlink is copied verbatim, so it no longer
  10523. points to a valid file.  then the snapshot script tries to follow the
  10524. link and can't.
  10525.  
  10526.  
  10527.  
  10528.  
  10529. 1313.
  10530. Date: Fri, 22 Jun 90 12:19:09 PDT
  10531. From: shirriff (Ken Shirriff)
  10532. Subject: pdev.c problems
  10533.  
  10534. The Pdev routines in /sprite/src/lib/c/etc/pdev.c have various problems.  In
  10535. particular, some of the default handlers take the wrong number of arguments,
  10536. or expect the wrong type of argument (see lint for details).  Things
  10537. probably work since most of these arguments aren't used, but someone who
  10538. knows the pdev stuff should make sure everything is right.
  10539.  
  10540.  
  10541.  
  10542. 1314.
  10543. Date: Fri, 22 Jun 90 14:49:32 PDT
  10544. From: root (The Sprite God)
  10545. Subject: allspice inetd restarted
  10546.  
  10547. someone complained that finger @sprite was refused.  restarting inetd fixed
  10548. the problem. this is one flaky program.
  10549.  
  10550.  
  10551.  
  10552.  
  10553. 1315.
  10554. Date: Fri, 22 Jun 1990 15:42:36 PDT
  10555. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  10556. Subject: kgdb.sun3 broken
  10557.  
  10558. I frequently cannot print out the contents of a variable when debugging
  10559. a sun3.  I get something similar to the following:
  10560.  
  10561. (gdb) p virtPage
  10562. No symbol "virtPage" in current context.
  10563.  
  10564.  
  10565.  
  10566.  
  10567. 1316.
  10568. Date: Fri, 22 Jun 90 15:47:20 PDT
  10569. From: Fred Douglis <douglis>
  10570. Subject: kgdb.sun4 broken too
  10571.  
  10572. last night, i spent some unconscionable amount of time trying to debug
  10573. my migration fix, because the line at which i was told the error
  10574. occurred was actually one or two statements before the line that
  10575. actually caused the problem.  furthermore, the register variable i was
  10576. looking at claimed to be 0, which would have explained the bad pointer
  10577. i hit. so, i spent my time trying to figure out how the pointer
  10578. suddenly became 0 rather than seeing that it was a completely
  10579. different pointer hitting the error.  
  10580.  
  10581. that's ALMOST as bad as trying to use kdbx on a ds3100.  but not
  10582. quite.... 
  10583.  
  10584.  
  10585.  
  10586.  
  10587. 1317.
  10588. Date: Fri, 22 Jun 90 15:50:51 PDT
  10589. From: tve (Thorsten von Eicken)
  10590. Subject: Re: kgdb.sun4 broken too 
  10591.  
  10592. Did you compile with the -O flag?  If you did (default in the makefile) you should
  10593. know that debugging is approximate. I.e. things might not get executed in the
  10594. same order as in the source.
  10595. I just would like to point out that all these problems are in the
  10596. normal gdb too. Plus
  10597. problems with continuing after breakpoints (looks like jhh's fix a few weeks ago
  10598. fixed dbx and broke gdb?).
  10599.  
  10600.  
  10601.  
  10602.  
  10603. 1318.
  10604. Date: Fri, 22 Jun 90 16:17:18 PDT
  10605. From: tve (Thorsten von Eicken)
  10606. Subject: can't mail to davidson.cs.sandia.gov - host unknown
  10607.  
  10608. Is the mailer brain-damaged, or am I expecting too much?
  10609.  
  10610. ------- Forwarded Message
  10611.  
  10612. Return-Path: tve
  10613. Received: by sprite.Berkeley.EDU (5.59/1.29)
  10614.     id AA997247; Fri, 22 Jun 90 16:15:34 PDT
  10615. Date: Fri, 22 Jun 90 16:15:34 PDT
  10616. From: MAILER-DAEMON (Mail Delivery Subsystem)
  10617. Subject: Returned mail: Host unknown
  10618. Message-Id: <9006222315.AA997247@sprite.Berkeley.EDU>
  10619. To: tve
  10620.  
  10621.    ----- Transcript of session follows -----
  10622. 550 gsdavid@davidson.cs.sandia.gov... Host unknown
  10623.  
  10624.    ----- Unsent message follows -----
  10625. Received: by sprite.Berkeley.EDU (5.59/1.29)
  10626.     id AA931709; Fri, 22 Jun 90 16:15:34 PDT
  10627. Date: Fri, 22 Jun 90 16:15:34 PDT
  10628. From: tve (Thorsten von Eicken)
  10629. Message-Id: <9006222315.AA931709@sprite.Berkeley.EDU>
  10630. To: gsdavid@davidson.cs.sandia.gov
  10631. Subject: test
  10632.  
  10633.  
  10634.  
  10635. ------- End of Forwarded Message
  10636.  
  10637.  
  10638.  
  10639. 1319.
  10640. Date: Fri, 22 Jun 90 17:16:58 PDT
  10641. From: elm (ethan miller)
  10642. Subject: memory leak?
  10643.  
  10644. After quite a while (7+ days), my SparcStation gets extremely slow when
  10645. it's running X.  Exiting X and restarting it doesn't do any good.  Only
  10646. restarting the machine seems to help.  I checked, and it wasn't being
  10647. caused by migrated processes or anything else like that.  This isn't
  10648. the first time I've noticed it, either.  I guess it's not serious,
  10649. but someone should know about it.
  10650.  
  10651.  
  10652.  
  10653. 1320.
  10654. Date: Mon, 25 Jun 90 16:04:59 PDT
  10655. From: tve (Thorsten von Eicken)
  10656. Subject: clock out of synch?
  10657.  
  10658. It seems the noon mint problems (with machines being halted) got many
  10659. clocks out of sync. Is there a way to get the rdates to run soon?
  10660.  
  10661.  
  10662.  
  10663. 1321.
  10664. Date: Mon, 25 Jun 90 16:13:42 PDT
  10665. From: Fred Douglis <douglis>
  10666. Subject: Re: clock out of synch? 
  10667.  
  10668. if you know what time most of the machines think it is, you can edit
  10669. /sprite/lib/cron/crontab to add an entry for a short time from "now"
  10670. that will cause them to invoke rdate prematurely once they re-stat the
  10671. file.  i think they stat crontab once per minute.  
  10672.  
  10673.  
  10674.  
  10675.  
  10676. 1322.
  10677. Date: Mon, 25 Jun 90 16:45:49 PDT
  10678. From: Fred Douglis <douglis>
  10679. Subject: sun4c reboot fails
  10680.  
  10681. about 50% of the time, it seems, "shutdown -R ..." hangs on the sun4c.
  10682. it starts downloading and then just sits there.  it's necessary to
  10683. l1-a, or often, power-cycle the machine and then try again.
  10684.  
  10685.  
  10686.  
  10687.  
  10688. 1323.
  10689. Date: Mon, 25 Jun 90 22:16:59 PDT
  10690. From: tve (Thorsten von Eicken)
  10691. Subject: clock syncronization script broken?
  10692.  
  10693. crackle-5# whoami
  10694. root
  10695. crackle-6# cat /sprite/admin/Rdate
  10696. #!/sprite/cmds/csh -f
  10697. if (`hostname` =~ mint*) exit
  10698. #set id=`hostname -i`
  10699. #@ id *= 5
  10700. #sleep %id
  10701. rdate mint
  10702. crackle-7# /sprite/admin/Rdate
  10703. rdate: connect: connection refused
  10704.  
  10705.  
  10706. 1324.
  10707. Date: Tue, 26 Jun 90 00:22:40 PDT
  10708. From: Fred Douglis <douglis>
  10709. Subject: Re: clock syncronization script broken? 
  10710.  
  10711. alas, this is the same thing that has been reported repeatedly over the past
  10712. few weeks.  inetd gets fried.  to fix the problem, one must kill mint's
  10713. inetd and restart it.
  10714.  
  10715. this was mentioned in today's bug report session but skipped over without
  10716. a discussion of a body to investigate it.  i'll try to take a peek.
  10717.  
  10718.  
  10719.  
  10720.  
  10721. 1325.
  10722. Date: Tue, 26 Jun 90 12:16:47 PDT
  10723. From: mgbaker (Mary Gray Baker)
  10724. Subject: rpc problem?
  10725.  
  10726. I just got all this in my console.  Did anybody else get something like this
  10727. recently?
  10728.  
  10729. RpcResend: RPC 23, client 14, RPC seq # 1491a7, forgot reply?
  10730. RpcResend: RPC 23, client 14, RPC seq # 1491a7, forgot reply?
  10731. RpcResend: RPC 23, client 14, RPC seq # 1491a7, forgot reply?
  10732. RpcResend: RPC 23, client 14, RPC seq # 1491a7, forgot reply?
  10733. RpcResend: RPC 23, client 14, RPC seq # 1491a7, forgot reply?
  10734. RpcResend: RPC 23, client 14, RPC seq # 1491a7, forgot reply?
  10735. RpcResend: RPC 23, client 14, RPC seq # 1491a7, forgot reply?
  10736. RpcResend: RPC 23, client 14, RPC seq # 1491b0, forgot reply?
  10737. RpcResend: RPC 23, client 14, RPC seq # 1491b0, forgot reply?
  10738. RpcResend: RPC 23, client 14, RPC seq # 1491b0, forgot reply?
  10739. RpcResend: RPC 23, client 14, RPC seq # 1491b0, forgot reply?
  10740. RpcResend: RPC 23, client 14, RPC seq # 1491b0, forgot reply?
  10741. RpcResend: RPC 23, client 14, RPC seq # 1491b0, forgot reply?
  10742. RpcResend: RPC 23, client 14, RPC seq # 1491b0, forgot reply?
  10743. get attr of "Makefile" waiting for recovery
  10744. 6/26/90 12:13:52 allspice (14) RmtFile "/sprite/src/kernel/mgbaker" <6,23748> : stale handle
  10745. 6/26/90 12:13:52 allspice (14) - recovering handles
  10746. 6/26/90 12:13:54 allspice (14) Recovery complete 242 handles reopened
  10747.  
  10748.  
  10749.  
  10750.  
  10751. 1326.
  10752. Date: Tue, 26 Jun 90 13:52:20 PDT
  10753. From: shirriff (Ken Shirriff)
  10754. Subject: Mint crash
  10755.  
  10756. Mint crashed today with:
  10757. Fsconsist_IOClientClose: client 44 ref 0 write 0 exec -1.
  10758. This is the same crash as yesterday.  Today the file was "spritehosts";
  10759. yesterday it was "crontab".  Mint was running the 1.066 kernel.
  10760.  
  10761. Client 44 is mustard.  Both times, before the crash, mustard went into an
  10762. infinite "entering debugger" loop, so Pete rebooted it.  Mint crashed
  10763. shortly after mustard finished booting.  My guess is that the use count
  10764. is getting mangled in recovery with mustard (maybe in Fsconsist_ReopenClient)
  10765. but this doesn't cause a panic until the file is closed.
  10766.  
  10767.  
  10768.  
  10769.  
  10770. 1327.
  10771. Date: Tue, 26 Jun 90 16:43:43 PDT
  10772. From: mendel (Mendel Rosenblum)
  10773. Subject: Bug in Mach_ContextSwitch on sparc machines
  10774.  
  10775.  
  10776. This is a bug in Mach_ContextSwitch for the sparc machines that can causes
  10777. random trashing of user processes' stacks.  The algorithm used by 
  10778. Mach_ContextSwitch is
  10779.  
  10780.     Switch VM context to new process.
  10781.     Save global and floating point regs.
  10782.     for (i = 0; i < NUM_REG_WINDOWS; i++) 
  10783.         save; /* Spill register windows to stack. */
  10784.     for (i = 0; i < NUM_REG_WINDOWS; i++) 
  10785.         restore; /* Return to the correct window. */
  10786.     Restore global and floating point regs of new process.    
  10787.     Restore current window.
  10788.     return to caller.
  10789.  
  10790. The problem is that "save" instructions cause overflow faults that 
  10791. can spill windows to the user's stack.  Changing the VM context before
  10792. the spills means that the registers are spilled to the wrong process's 
  10793. stack. Unless I'm totally misunderstanding something here, I think the
  10794. switching of VM context should be done after saving the old processes state
  10795. and before loading the new processes state.  
  10796.  
  10797. Since the sun4 ports appear to run as well as any Sprite port, I think it
  10798. is correct to conclude that there are almost always at least 6 levels of 
  10799. call nesting between a user's trap into the kernel and Mach_ContextSwitch
  10800. being called.  
  10801.  
  10802.  
  10803.  
  10804.  
  10805. 1328.
  10806. Date: Wed, 27 Jun 90 12:04:34 PDT
  10807. From: shirriff (Ken Shirriff)
  10808. Subject: Migration bug
  10809.  
  10810. subversion crashed with a TLB LD miss, running 1.066.
  10811. The problem is in GetProcEncapSize, which does
  10812.     Byte_AlignAddr(strlen(procPtr->argString) + 1);
  10813. procPtr->argString was NULL, so strlen died.
  10814.  
  10815.  
  10816.  
  10817. 1329.
  10818. Date: Wed, 27 Jun 90 12:22:27 PDT
  10819. From: Fred Douglis <douglis>
  10820. Subject: Re: Migration bug 
  10821.  
  10822. >>>>> On Wed, 27 Jun 90 12:04:34 PDT, shirriff@sprite.Berkeley.EDU (Ken Shirriff) said:
  10823.  
  10824. Ken> subversion crashed with a TLB LD miss, running 1.066.
  10825. Ken> The problem is in GetProcEncapSize, which does
  10826. Ken>     Byte_AlignAddr(strlen(procPtr->argString) + 1);
  10827. Ken> procPtr->argString was NULL, so strlen died.
  10828.  
  10829. i believe this is due to jay's change to procExec i installed a few days
  10830. ago.  it saves away the argString so it can set it back on error and
  10831. avoid freeing it twice.  however, there's a pathological case in which
  10832. it can jump to the error handling code before it's set argStringSave.
  10833. later on the proc can wind up with a NIL argString.
  10834.  
  10835.  
  10836.  
  10837.  
  10838. 1330.
  10839. Date: Wed, 27 Jun 1990 13:36:53 PDT
  10840. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  10841. Subject: chmod on remote links broken
  10842.  
  10843. If you try to chmod a remote link you get the following message:
  10844. chmod: can't change /b, Too many levels of symbolic links
  10845.  
  10846.  
  10847.  
  10848.  
  10849. 1331.
  10850. Date: Thu, 28 Jun 90 17:22:35 PDT
  10851. From: Fred Douglis <douglis>
  10852. Subject: those debuggable processes
  10853.  
  10854. i just spent quite some time trying to figure out why the migrating
  10855. tcsh was complaining along the lines of 
  10856.  
  10857.      "/sprite/cmds.%MACHINE/la: invalid argument" 
  10858.  
  10859. when i happened to migrate to forgery.  It didn't occur to me to do a
  10860. ps on that machine, and instead i stepped through the debugger to see
  10861. where exec was bailing.  turns out it was running out of segments
  10862. and/or processes, due mostly to the presence of dozens of raidSim4
  10863. processes in the DEBUG state.  i'm going to kill off the debug
  10864. processes so things can get moving again.
  10865.  
  10866.  
  10867.  
  10868.  
  10869. 1332.
  10870. Date: Fri, 29 Jun 90 16:43:10 PDT
  10871. From: shirriff (Ken Shirriff)
  10872. Subject: Allspice problems
  10873.  
  10874. Allspice has hung up a couple times today.  Apparently the network
  10875. interface is flaky; Allspice's console had a bunch of RPC to foo is hung
  10876. messages and it worked after I did L1-N.
  10877.  
  10878. Also, the ribbon in mint's console is rapidly heading towards oblivion.
  10879.  
  10880.  
  10881.  
  10882. 1333.
  10883. Date: Fri, 29 Jun 90 16:51:05 PDT
  10884. From: Fred Douglis <douglis>
  10885. Subject: Re: problem with msgs? 
  10886.  
  10887. This was a problem with oregano running a new kernel that didn't
  10888. byte-swap seek operations and would return an error.  (it used to just
  10889. return SUCCESS, i guess.)  larceny is now exporting /sprite2 with a
  10890. fixed kernel and things work again.  
  10891.  
  10892.  
  10893.  
  10894.  
  10895. 1334.
  10896. Date: Sat, 30 Jun 90 13:41:45 PDT
  10897. From: douglis@rosemary.Berkeley.EDU (Fred Douglis)
  10898. Subject: allspice crash
  10899.  
  10900. allspice's swap disk filled up.  lots and lots of msgs on its console about
  10901. WRITE FAILED.  then, a panic with:
  10902.  
  10903. Fsdm_FileDescTrunc abandoning (indirect) block 134672 in <1,42334> "154" savedLastByte 16383
  10904. Fscache_DeleteFile "154" <1,42334>: 1 cache blocks left
  10905.  
  10906. (gdb) where
  10907. #0  panic (__builtin_va_alist=-167521065) (sysPrintf.c line 209)
  10908. #1  0xf603d760 in Fscache_DeleteFile (...) (...)
  10909. #2  0xf6044ba4 in Fsio_FileTrunc (...) (...)
  10910. #3  0xf604b4b8 in Fslcl_DeleteFileDesc (...) (...)
  10911. #4  0xf60436f4 in Fsio_FileCloseInt (...) (...)
  10912. #5  0xf604b2d4 in DeleteFileName (...) (...)
  10913. #6  0xf6049c18 in FslclLookup (...) (...)
  10914. #7  0xf6048e60 in FslclRemove (...) (...)
  10915. #8  0xf6058e88 in Fsrmt_RpcRemove (...) (...)
  10916. #9  0xf608fca8 in Rpc_Server (...) (...)
  10917. #10 0xf60940e0 in Sched_StartKernProc (...) (...)
  10918. #11 0xf6094060 in Sched_StartKernProc (...) (...)
  10919. ERROR: invalid read address 0x2e4265a8
  10920.  
  10921. (gdb) up
  10922. Reading in symbols for fsCacheOps.c...done.
  10923. #1  0xf603d760 in Fscache_DeleteFile (cacheInfoPtr=(struct Fscache_FileInfo *) 0xf6f2b248) (fsCacheOps.c line 1380)
  10924. 1380            cacheInfoPtr->flags);
  10925. (gdb) l
  10926. 1375        (cacheInfoPtr->flags & (FSCACHE_FILE_ON_DIRTY_LIST|
  10927. 1376                    FSCACHE_FILE_BEING_WRITTEN))) {
  10928. 1377        panic("Fscache_DeleteFile failed \"%s\" blocks %d flags %x\n",
  10929. 1378            Fsutil_HandleName(cacheInfoPtr->hdrPtr),
  10930. 1379            cacheInfoPtr->blocksInCache,
  10931. 1380            cacheInfoPtr->flags);
  10932. 1381        }
  10933. 1382        UNLOCK_MONITOR;
  10934. 1383    }
  10935.  
  10936.  
  10937. ...
  10938.  
  10939. i poked around, thought this was due to its inability to free space in
  10940. its cache, and continued.  it survived for a moment but when i tried
  10941. deleting a file from lost+found to make room on the disk, it died with
  10942. a bad address trying to deference with a bogus block number.  the backtrace
  10943. this time was:
  10944.  
  10945. #3  0xf60321f8 in FsdmBlockFree (domainPtr=(struct Fsdm_Domain *) 0xf65b71b8, blockNum=420909120) (fsAlloc.c line 1317)
  10946. #4  0xf60312ac in Fsdm_FileDescTrunc (handlePtr=(struct Fsio_FileIOHandle *) 0xf6b026a8, size=0) (fsAlloc.c line 646)
  10947. #5  0xf6044b8c in Fsio_FileTrunc (...) (...)
  10948. #6  0xf604b4b8 in Fslcl_DeleteFileDesc (...) (...)
  10949. #7  0xf60436f4 in Fsio_FileCloseInt (...) (...)
  10950. #8  0xf604b2d4 in DeleteFileName (...) (...)
  10951. #9  0xf6049c18 in FslclLookup (...) (...)
  10952. #10 0xf6048e60 in FslclRemove (...) (...)
  10953. #11 0xf6058e88 in Fsrmt_RpcRemove (...) (...)
  10954.  
  10955. looks like Fsdm_FileDescTrunc has to be more defensive about the block
  10956. numbers it comes up with.
  10957.  
  10958. finally, a third bug: i followed the instructions on allspice's console
  10959. to boot "sd()vmsprite" but it claimed "couldn't attach disk".  same for
  10960. vmunix.  i had to boot from mint.
  10961.  
  10962.  
  10963.  
  10964.  
  10965. 1335.
  10966. Date: Sat, 30 Jun 90 14:17:34 PDT
  10967. From: Fred Douglis <douglis>
  10968. Subject: ds3100 randomness
  10969.  
  10970. when i went into 608-4 to debug allspice i saw that violence was in
  10971. the debugger.  it died when the ptr passed to RpcDaemonWait became 0.
  10972. since it's called with the address of a structure that looks perfectly
  10973. fine, the memory must have been trashed.
  10974.  
  10975. and, piquante has died 3 times in 3 days with "coprocessor unusable"
  10976. exceptions. i debugged it this time and it's sitting at a perfectly
  10977. reasonable instruction having nothing to do with the coprocessor.  (or
  10978. does the coprocessor refer to the TLB?)  it was apparently
  10979. continuable.
  10980.  
  10981.  
  10982.  
  10983.  
  10984. 1336.
  10985. Date: Sat, 30 Jun 90 17:33:08 PDT
  10986. From: Fred Douglis <douglis>
  10987. Subject: allspice network interface
  10988.  
  10989. allspice was acting incredibly sluggish again.  i was able to contact
  10990. it enough to talk to its sendmail daemon for a moment, but then even
  10991. that hung.  restarting the ipServer didn't help, but hitting l1-n did.
  10992.  
  10993.  
  10994.  
  10995.  
  10996.  
  10997. 1337.
  10998. Date: Sun, 01 Jul 90 14:53:20 PDT
  10999. From: tve (Thorsten von Eicken)
  11000. Subject: qsort definition
  11001.  
  11002.  
  11003. In the man page:
  11004.  
  11005. SYNOPSIS
  11006.      qsort(base, nel, width, compar)
  11007.      char *base;
  11008.      int (*compar)();
  11009.  
  11010. DESCRIPTION
  11011.      ...
  11012.  
  11013. but:
  11014. [crackle sun4.md] egrep qsort /sprite/lib/include/*.h
  11015. /sprite/lib/include/stdlib.h:extern void        qsort();
  11016.  
  11017. so, does it return something or not?
  11018.  
  11019.  
  11020.  
  11021.  
  11022. 1338.
  11023. Date: Sun, 1 Jul 1990 23:05:47 PDT
  11024. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  11025. Subject: new sun3 bcopy
  11026.  
  11027.  
  11028. I've installed a new sun3 bcopy routine that doesn't do half-word
  11029. aligned loads if the dest is greater than the source and the length
  11030. of the transfer ends in either 0x2 or 0x3.  The old version would
  11031. bcopy at half the speed per byte in this case, causing the jaggies on my
  11032. ultranet performance graph.  The new one bcopies at a constant speed
  11033. per byte, regardless of the length of the input.
  11034.  
  11035. I installed a new libc.a,  but did not install a new libc module due
  11036. to its current state of confusion.
  11037.  
  11038.  
  11039.  
  11040. 1339.
  11041. Date: Tue, 03 Jul 90 14:39:11 PDT
  11042. From: Fred Douglis <douglis>
  11043. Subject: out of space wedging system
  11044.  
  11045. my commands on sage are hanging.  from an rlogin, i can't tell diddly.
  11046. by running "cat /hosts/sage/dev/syslog" remotely i can tell that it's
  11047. printing complaints about allspice out of space (on /mic) constantly.
  11048.  
  11049.  
  11050.  
  11051.  
  11052. 1340.
  11053. Date: Tue, 3 Jul 1990 22:32:56 PDT
  11054. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  11055. Subject: /dev
  11056.  
  11057. Unless someone has a good reason why we shouldn't, I propose that all
  11058. devices in /dev have a serverID of -1 (localhost).  It is a pain
  11059. in the #%?!& to trip over all the devices whose host isn't up.
  11060. It takes hours to do an update of the root partition.
  11061. Please make don't make devices in /dev have a specific server.
  11062. If a device needs a specific server then put it in /hosts/foo/dev.
  11063. Don't make too many of these either.  Thanks.
  11064.  
  11065.  
  11066.  
  11067.  
  11068. 1341.
  11069. Date: Wed, 4 Jul 90 12:18:48 PDT
  11070. From: tve (Thorsten von Eicken)
  11071. Subject: mint enetered debugger this morning
  11072.  
  11073. I simply rebooted - everything went fine. Look at the console for
  11074. details...
  11075.  
  11076.  
  11077.  
  11078.  
  11079. 1342.
  11080. Date: Wed, 4 Jul 90 12:49:43 PDT
  11081. From: pmchen (Peter M. Chen)
  11082. Subject: Re: mint enetered debugger this morning
  11083.  
  11084. This morning I found mustard (ds3100 running 1.068) in the debugger
  11085. (this has happened before, talk to Ken about it).  I rebooted and
  11086. it came back, but odd things were happening to my X server (it wouldn't
  11087. start, couldn't find the DISPLAY variable) as well as other weird things like
  11088. pwd going into the debugger.
  11089.  
  11090. I rebooted several times.  The last one caused mint to hang.  This has
  11091. happened before (twice) where rebooting mustard causes mint to hang, under
  11092. kernels 1.066 and 1.067, I think.
  11093.  
  11094. I've notified (or tried to notify in this case) spriters when mustard crashes
  11095. in this way.  Any advice for next time? It may be a hardware problem, so I
  11096. could switch to garlic (another ds3100).
  11097.  
  11098.  
  11099.  
  11100.  
  11101. 1343.
  11102. Date: Wed, 04 Jul 90 23:50:41 PDT
  11103. From: rab (Robert A. Bruce)
  11104. Subject: oregano deadlocked
  11105.  
  11106. Oregano deadlocked on the timerMutex.
  11107.  
  11108. Timer: timerMutex @ 0xe0a61a0
  11109. Holder PC: 0x0  Current PC: 0x2eb00
  11110. Holder PCB @ 0xe0abaa4  Current PCB @ 0xe245a9c
  11111. Error type 47 while syncing disks
  11112.  
  11113.  
  11114.  
  11115.  
  11116. 1344.
  11117. Date: Thu, 05 Jul 90 08:08:04 PDT
  11118. From: rab (Robert A. Bruce)
  11119. Subject: allspice
  11120.  
  11121. Allspice crashed:
  11122.  
  11123. Fatal Error:  MachHandleWeirdoInstruction:  The error occurred in a user
  11124. process with procPtr = f650770 and pc = f602cfc4
  11125.  
  11126. It was running sun4.JHH.915
  11127.  
  11128.  
  11129.  
  11130.  
  11131. 1345.
  11132. Date: Thu, 5 Jul 90 11:15:20 PDT
  11133. From: mendel (Mendel Rosenblum)
  11134. Subject: Newly installed tx broken
  11135.  
  11136. The newly installed Tx goes into an infinite loop if you try to output a 
  11137. long line.  The problems occurs if you try to build a Sprite kernel because
  11138. make outputs the ld command as a long line.  This happens on both the 
  11139. sun4c and ds3100.  I backed out /sprite/cmds.sun4/tx to 
  11140. /sprite/cmds.sun4.old/tx.
  11141.  
  11142.  
  11143.  
  11144.  
  11145. 1346.
  11146. Date: Thu, 05 Jul 90 16:33:58 PDT
  11147. From: Fred Douglis <douglis>
  11148. Subject: ds3100 syslog reopen crashes system
  11149.  
  11150. the ds3100 dev/fs recovery table had a bug and had no entry for the
  11151. syslog device.  thus, if a host has at any time opened
  11152. /hosts/<ds3100>/dev/syslog, the poor ds3100 may crash each time it
  11153. reboots and the first host recovers with it. 
  11154.  
  11155. i've changed this in the sources and it'll make it into the next
  11156. kernel.  i'm curious: should lint have turned this up?  in any case,
  11157. is the kernel due for a major de-linting session?  i've been seeing
  11158. lots of messages.
  11159.  
  11160.  
  11161.  
  11162.  
  11163. 1347.
  11164. Date: Thu, 05 Jul 90 17:20:41 PDT
  11165. From: Fred Douglis <douglis>
  11166. Subject: allspice crash in Fscache_DeleteFile
  11167.  
  11168. same crash as bug report #29670.  a more careful look showed that the
  11169. list of blocksInCache was empty though the count of blocks was 1.  
  11170.  
  11171.  
  11172.  
  11173.  
  11174. 1348.
  11175. Date: Thu, 5 Jul 90 21:15:33 PDT
  11176. From: shirriff (Ken Shirriff)
  11177. Subject: Allspice crash
  11178.  
  11179. Allspice crashed this afternoon in List_Remove with invalid list pointers.
  11180. The back trace was:
  11181. List_Remove(&blockPtr->fileLinks)
  11182. Delete_Block(blockPtr)
  11183. Fetch_Block()
  11184. Fscache_FetchBlock();
  11185.  
  11186. blockPtr seemed to be valid, but blockPtr->fileLinks was pointing the
  11187. wrong place.  Maybe two processes updated fileLinks and it wasn't locked?
  11188.  
  11189.  
  11190.  
  11191. 1349.
  11192. Date: Fri, 6 Jul 90 09:38:11 PDT
  11193. From: ouster (John Ousterhout)
  11194. Subject: Corrupted files
  11195.  
  11196. The following files were corrupted recently.  Bob, can you restore
  11197. these from tape?  Perhaps we should push out a new kernel that has
  11198. the fix for the file-corruption problem?
  11199.  
  11200. /mic/octtools/src/cmds/vem/schematic/ds3100.md/md.mk
  11201. /mic/octtools/src/cmds/vem/symbolic/.newsrc
  11202. /mic/octtools/src/cmds/TimberWolfMC/parser.c
  11203. /sprite/lib/ps/tex.pro
  11204.  
  11205.  
  11206.  
  11207. 1350.
  11208. Date: Fri, 06 Jul 90 15:45:15 PDT
  11209. From: Fred Douglis <douglis>
  11210. Subject: migration trashed register/memory?
  11211.  
  11212. cpp went into the debugger as a result of being migrated.  it
  11213. dereferenced a garbage pointer in code that looks like it couldn't
  11214. have happened:
  11215.  
  11216.     struct file_name_list* ptr;
  11217.  
  11218.     for (ptr = dont_repeat_files; ptr; ptr = ptr->next) {
  11219.       if (!strcmp (ptr->fname, fname)) {
  11220.     close (f);
  11221.         return;                /* This file was once'd. */
  11222.       }
  11223.     }
  11224.  
  11225. dont_repeat_files was NULL, so i don't see how it could have wound up
  11226. with ptr==0x80940000.  the obvious possibilities are that either the
  11227. PC is getting messed up during migration, or registers aren't being
  11228. saved right.  since migration on sun4cs causes an error once in a blue
  11229. moon (much less often than ds3100, which would happen nearly 100% of
  11230. the time during compilations) i'm wondering if the machine-dependent
  11231. state encapsulation has a minor bug.  
  11232.  
  11233.  
  11234.  
  11235.  
  11236. 1351.
  11237. Date: Fri, 6 Jul 90 18:05:52 PDT
  11238. From: shirriff (Ken Shirriff)
  11239. Subject: Allspice crash
  11240.  
  11241. Allspice had a new crash (right on schedule; Friday afternoon):
  11242. Fatal Error: MachHandleWeirdoInstruction: unaligned address trap
  11243. This was running sun4.JHH.915
  11244. FslclLookup was called from FslclOpen, to lookup "./..".
  11245. Apparently FindComponent("..") returned success, but
  11246. curHandlePtr->descPtr was NIL, so it died soon after when it tried to
  11247. access curHandlePtr->descPtr->fileType.
  11248.  
  11249. This is probably the same race that Sequent had and I fixed with them
  11250. a few weeks ago.  I just got mail from fubar with the changes they are
  11251. currently using, so I'll integrate these with our sources.
  11252.  
  11253.  
  11254.  
  11255.  
  11256. 1352.
  11257. Date: Fri, 6 Jul 90 18:14:26 PDT
  11258. From: shirriff (Ken Shirriff)
  11259. Subject: strange processes
  11260.  
  11261. Nutmeg was running very slow, even for a sun3.  I did a ps and found the
  11262. following processes:
  11263. root     60321 63.5  0.2   144    16 READY20008:07    login root 
  11264. root     10319  0.0  0.0    72     0 WAIT    0:01    sh -c /c/stats/RAW
  11265. root     40318  0.0  0.0    72     0 WAIT    0:01    sh -c /c/stats/RAW
  11266. root     9031e  0.0  0.0    88     0 WAIT    0:01    loadavg 
  11267. root     6031c  0.0  0.0    88     0 WAIT    0:01    loadavg 
  11268. root     60322  0.0  0.0    72     0 WAIT    0:01    sh -c /c/stats/RAW
  11269. root     d0312  0.0  0.0    88     0 WAIT    0:01    loadavg 
  11270. root       313  0.0  0.0    72     0 WAIT    0:01    sh -c /c/stats/RAW
  11271. root     20320  0.0  0.0    72     0 WAIT    0:01    sh -c /c/stats/RAW
  11272. root     90336  0.0  0.0    72     0 WAIT    0:01    sh -c /c/stats/RAW
  11273. root     2033a  0.0  0.0    72     0 WAIT    0:00    sh -c /c/stats/RAW
  11274. root     e033e  0.0  0.0    72     0 WAIT    0:01    sh -c /c/stats/RAW
  11275. root     10347  0.0  0.0    88     0 WAIT    0:01    loadavg 
  11276. root     2034a  0.0  0.0    88     0 WAIT    0:00    loadavg 
  11277. root     1034e  0.0  0.0    72     0 WAIT    0:00    sh -c /c/stats/RAW
  11278. root     1034f  0.0  0.0    72     0 WAIT    0:01    sh -c /c/stats/RAW
  11279. root     b032a  0.0  0.0    72     0 WAIT    0:01    sh -c /c/stats/RAW
  11280. root     f032e  0.0  0.0    88     0 WAIT    0:00    loadavg 
  11281. root     20332  0.0  0.0    72     0 WAIT    0:01    sh -c /c/stats/RAW
  11282.  
  11283. Any idea what these are, and why login would soak up all this time?
  11284.  
  11285.  
  11286.  
  11287. 1353.
  11288. Date: Sat, 7 Jul 90 17:50:00 PDT
  11289. From: mendel (Mendel Rosenblum)
  11290. Subject: fscheck bug
  11291.  
  11292. We (Mary, Ken, and I) have identified and corrected a problem that has caused
  11293. repeated crashes of allspice.   The problem was that /sprite/src/kernel/sig/..
  11294. didn't point to /sprite/src/kernel.   It contained the file number of an
  11295. unallocated file.  This meant that anyone touching /sprite/src/kernel/sig 
  11296. caused allspice to panic.  Unfortunately, fscheck didn't detect or repair the
  11297. problem.  I had to patch the directory in the file cache and write it back to 
  11298. allow allspice to be usable again.   
  11299.  
  11300. Bugs:
  11301.     1) "/sprite/src/kernel/sig/.." got changed from file number 2 to 
  11302.        the file number of an unallocated file.
  11303.     2) Fscheck didn't detect the problem. 
  11304.  
  11305.  
  11306.  
  11307.  
  11308. 1354.
  11309. Date: Sat, 7 Jul 90 18:59:34 PDT
  11310. From: shirriff (Ken Shirriff)
  11311. Subject: Re: fscheck bug -- restore bug?
  11312.  
  11313. The restore program seems to have a serious bug in it that causes the
  11314. directory structure to get messed up.  I restored /sprite/src/kernel/sig
  11315. into /sprite/src/kernel/restore/sprite/src/kernel/sig.  I used restore
  11316. with the -r flag, which is supposed to preserve the current file and
  11317. move the restored file elsewhere.  (~shirriff/allspice.trace shows what I did.)
  11318.  
  11319. However /sprite/src/kernel/sig now seems to be some kind of hard link to
  11320. /sprite/src/kernel/restore/sprite/src/kernel/sig.  If you do a "cd" to
  11321. /sprite/src/kernel/sig, you end up in
  11322. /sprite/src/kernel/restore/sprite/src/kernel/sig.
  11323.  
  11324. I think this is what caused the problems with allspice the last couple days.
  11325. Bob restored sig for me when I accidentally nuked part of it, I copied the
  11326. restored things to /s/s/k/sig, and then I deleted /s/s/k/restore/*.
  11327. Evidently /s/s/k/sig/.. then pointed to the nonexistent /s/s/k/restore/s/s/k
  11328. and made /s/s/k/sig a poison directory.
  11329.  
  11330. In summary:
  11331. a) restore is evil
  11332. b) /sprite/src/kernel/sig is messed up again (but not poison) and I don't know
  11333. how to fix it.  Maybe fscheck would do the right think this time, but I
  11334. don't want to try it.
  11335.  
  11336.  
  11337.  
  11338.  
  11339. 1355.
  11340. Date: Sun, 8 Jul 90 09:28:21 PDT
  11341. From: ouster (John Ousterhout)
  11342. Subject: Corrupted files?
  11343.  
  11344. The checksummer reported corruption in the following files:
  11345.  
  11346. /sprite/src/kernel/dbg.jhh/sun3.md/RCS/dbgMain.c,v
  11347. /sprite/src/kernel/dbg/ds3100.md/dbgMain.o
  11348.  
  11349. I checked the first file and it looks truncated rather than corrupted.
  11350. Bob, can you restore it from tape?  I assume that the second file can
  11351. simply be recreated.
  11352.  
  11353.  
  11354.  
  11355.  
  11356. 1356.
  11357. Date: Mon, 09 Jul 90 13:19:29 PDT
  11358. From: Fred Douglis <douglis>
  11359. Subject: compilation/loader problem
  11360.  
  11361. i'm running into trouble making "TM=cleansun3" for proc.  this was
  11362. done just as a test of pmake, except that it failed to load.  now it
  11363. turns out that remaking it from scratch doesn't succeed, even w/o
  11364. migration (which is what i thought was fouling things up.)  
  11365.  
  11366. i get:
  11367.  
  11368.     ld: malformed input file (not rel or archive) cleansun3.md/procMach.o
  11369.  
  11370. i can't see anything obvious wrong with the file.  anyone have any
  11371. suggestions what it might mean?  sun3 links fine, so it's cleansun3
  11372. that has the problem.  procMach.c has no "#ifdef clean" lines in it,
  11373. and making for cleansun3 does define sun3, so that shouldn't be the
  11374. problem.  
  11375.  
  11376.  
  11377.  
  11378.  
  11379. 1357.
  11380. Date: Mon, 9 Jul 1990 21:34:39 PDT
  11381. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  11382. Subject: hard links to directories
  11383.  
  11384. The creation/deletion of hard links to directories doesn't work very well.
  11385. At the very least the link counts are not updated properly.  I have a 
  11386. feeling that this feature is little used and little debugged.  Someone
  11387. should look over the code and make sure it looks ok.
  11388.  
  11389.  
  11390.  
  11391.  
  11392. 1358.
  11393. Date: Tue, 10 Jul 90 10:41:59 PDT
  11394. From: Fred Douglis <douglis>
  11395. Subject: lpd hoses again
  11396.  
  11397. when, oh when, will lpd be reliable?  i sent a 2-page document to our
  11398. printer when it was already complaining about being out of paper from
  11399. a previous job. when i added paper, it printed 2 copies of page 2 and
  11400. tossed the job.  
  11401.  
  11402.  
  11403.  
  11404.  
  11405. 1359.
  11406. Date: Tue, 10 Jul 90 18:33:59 PDT
  11407. From: shirriff (Ken Shirriff)
  11408. Subject: tar.gnu bug
  11409.  
  11410. tar.gnu has a bug that causes it to dump directories as symbolic links,
  11411. instead of directories.  This is why directories end up with hard links
  11412. on restore.
  11413.  
  11414. This problem is in tar.gnu, but not tar.
  11415. Basically, if you do a tar.gnu with the 'n' flag (for no recursion), it
  11416. is supposed to dump the directory as a regular file.  However, tar.gnu gets
  11417. confused and ends up dumping it as a link.  I'd like to discuss this
  11418. with someone who understands tar.gnu (and why we have two tars), so I
  11419. don't make a change that destroys all our dumps.
  11420.  
  11421. Also, there's a bug in the file system that allows a regular user to
  11422. make a hard link to a directory (you should be superuser to do this).
  11423. I added a permission check to the fs code.
  11424.  
  11425.  
  11426.  
  11427.  
  11428. 1360.
  11429. Date: Wed, 11 Jul 90 11:18:30 PDT
  11430. From: tve (Thorsten von Eicken)
  11431. Subject: allspice
  11432.  
  11433. has several sendmail in DEBUG
  11434. doesn't accept ftp
  11435.  
  11436.  
  11437.  
  11438. 1361.
  11439. Date: Wed, 11 Jul 90 16:25:38 PDT
  11440. From: shirriff (Ken Shirriff)
  11441. Subject: Migration problem?
  11442.  
  11443. I did a pmake on treason and got:
  11444. *** compat: Cannot decode user status value 0xc0303c78
  11445. MigOpenPdev: Error opening pdev /sprite/admin/migd/pdev (still trying): invalid argument.
  11446. MigOpenPdev: Succeeded in opening pdev.
  11447. and then it worked okay.
  11448.  
  11449.  
  11450.  
  11451.  
  11452. 1362.
  11453. Date: Wed, 11 Jul 90 22:00:07 PDT
  11454. From: pmchen@ginger.Berkeley.EDU (Peter M. Chen)
  11455. Subject: ping to sprite sun4's
  11456.  
  11457. I did the following pings to allspice and sassafras (both sun4's)
  11458. from ginger.
  11459.  
  11460. ping to allspice takes place in 0 time?
  11461. ping to sassafras doesn't respond at all, even though it
  11462.     responds fine when I ping it from sprite.
  11463. ping to mustard takes 19ms for the first one, then 0 time?
  11464.  
  11465. PING allspice.Berkeley.EDU (128.32.150.27): 56 data bytes
  11466. 64 bytes from 128.32.150.27: icmp_seq=0. time=0. ms
  11467. 64 bytes from 128.32.150.27: icmp_seq=8. time=0. ms
  11468.  
  11469. ----allspice.Berkeley.EDU PING Statistics----
  11470. 9 packets transmitted, 9 packets received, 0% packet loss
  11471. round-trip (ms)  min/avg/max = 0/0/0
  11472.  
  11473. %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
  11474.  
  11475. PING sassafras.Berkeley.EDU (128.32.150.41): 56 data bytes
  11476.  
  11477. ----sassafras.Berkeley.EDU PING Statistics----
  11478. 10 packets transmitted, 0 packets received, 100% packet loss
  11479.  
  11480. %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
  11481.  
  11482. PING mustard.Berkeley.EDU (128.32.150.38): 56 data bytes
  11483. 64 bytes from 128.32.150.38: icmp_seq=0. time=19. ms
  11484. 64 bytes from 128.32.150.38: icmp_seq=5. time=0. ms
  11485.  
  11486. ----mustard.Berkeley.EDU PING Statistics----
  11487. 6 packets transmitted, 6 packets received, 0% packet loss
  11488. round-trip (ms)  min/avg/max = 0/3/19
  11489.  
  11490.  
  11491. 1363.
  11492. Date: Thu, 12 Jul 90 12:42:01 PDT
  11493. From: Fred Douglis <douglis>
  11494. Subject: "/" filled ... X0msgs and bootplog
  11495.  
  11496. both of these files were getting written repeatedly.  someone's X
  11497. server was printing "select failed" and bootp on mint was printing
  11498. "recvfrom failed".  
  11499.  
  11500.  
  11501.  
  11502.  
  11503. 1364.
  11504. Date: Thu, 12 Jul 90 17:48:56 PDT
  11505. From: mendel (Mendel Rosenblum)
  11506. Subject: ps can't add when run remotely
  11507.  
  11508. If you run the ps command with the "-v" option from rsh you get incorrect 
  11509. memory size totals. For example:
  11510.  
  11511. jaywalk% ps -v
  11512. PID   CODSZ CODRS  HPSZ  HPRS STKSZ STKRS  SIZE   RSS COMMAND
  11513. 3120c   272   216   172   140    16    16   460   372 twm 
  11514. 71211   360   340   372   348    20    12   752   700 tx -D -title Console ...
  11515. 51213   104     0    56     0     4     0   164     0 xinit 
  11516. 51214   704   444  1384   840    20    12  2108  1296 X :0 
  11517. 61216   360   340   404   380    20    12   784   732 tx =80x35+0+374 ...
  11518. 41217   144   140    48    12    12     4   204   156 /users/mendel/.xinitrc ...
  11519. 61218   144   140    80    72    24    20   248   232 /sprite/cmds/csh 
  11520. 61219   360   340   164   120    20     8   544   468 tx -title /dev/syslog ...
  11521. 4121c   144   140    56    12    24     4   224   156 -csh 
  11522. 6121d   360   340   268   232    20    12   648   584 tx =80x35+576+374 ...
  11523. 6121f    32    24    20     8     4     4    56    36 /sprite/cmds/cat ...
  11524. 21220    40    32    24    24     4     4    68    60 /sprite/daemons/xgoned 
  11525. 11221   320   104   212    68    16     8   548   180 xbiff -geometry ...
  11526. 11223   344   164   368   164    28    12   740   340 spritemon -geometry ...
  11527. 11225   144   140    92    76    24    16   260   232 /sprite/cmds/csh -i 
  11528. 91228    64    60    36    24   136    56   236   140 ps -v 
  11529. 1122a   144   140   112   104    24    20   280   264 /sprite/cmds/csh -i 
  11530. a122b   312   292   224   180    20     8   556   480 mx =80x36 ...
  11531. 4122f   360   340   212   176    20    12   592   528 tx =80x37+0+378 -title ...
  11532. 61230    80    72    60    12     8     4   148    88 rlogin rosemary 
  11533. 61231    80    72    60    16     8     4   148    92 rlogin rosemary 
  11534. 1123c   312   292   336   320    20    20   668   632 mx =80x36 ...
  11535. f1249   112   112    60    56    20    20   192   188 mail bugs 
  11536. -----------------------------------------------------
  11537. Total  2888  2000  4820  3384   512   288  8220  5672
  11538.     ^^^^^^^^^^^^^^^^^^^^^^ Right
  11539. jaywalk% rsh jaywalk ps -v 
  11540. PID   CODSZ CODRS  HPSZ  HPRS STKSZ STKRS  SIZE   RSS COMMAND
  11541. 3120c   272   216   172   140    16    16   460   372 twm 
  11542. 71211   360   340   372   348    20    12   752   700 tx -D -title Console ...
  11543. 51213   104     0    56     0     4     0   164     0 xinit 
  11544. 51214   704   444  1384   840    20    12  2108  1296 X :0 
  11545. 61216   360   340   404   380    20    12   784   732 tx =80x35+0+374 ...
  11546. 41217   144   140    48    12    12     4   204   156 /users/mendel/.xinitrc ...
  11547. 61218   144   140    80    72    24    20   248   232 /sprite/cmds/csh 
  11548. 61219   360   340   164   120    20     8   544   468 tx -title /dev/syslog ...
  11549. 4121c   144   140    56    12    24     4   224   156 -csh 
  11550. 6121d   360   340   272   236    20    12   652   588 tx =80x35+576+374 ...
  11551. 6121f    32    24    20     8     4     4    56    36 /sprite/cmds/cat ...
  11552. 21220    40    32    24    24     4     4    68    60 /sprite/daemons/xgoned 
  11553. 11221   320   104   212    68    16     8   548   180 xbiff -geometry ...
  11554. 11223   344   164   368   164    28    12   740   340 spritemon -geometry ...
  11555. 11225   144   140    92    76    24    16   260   232 /sprite/cmds/csh -i 
  11556. d1229    72    64    48    48    12    12   132   124 rsh jaywalk ps -v 
  11557. 1122a   144   140   112   104    24    20   280   264 /sprite/cmds/csh -i 
  11558. a122b   312   292   224   180    20     8   556   480 mx =80x36 ...
  11559. 1122e   144   140    44    40    12    12   200   192 csh -c ps -v 
  11560. 4122f   360   340   212   176    20    12   592   528 tx =80x37+0+378 -title ...
  11561. 61230    80    72    60    12     8     4   148    88 rlogin rosemary 
  11562. 61231    80    72    60    16     8     4   148    92 rlogin rosemary 
  11563. 91232    72    64    48    48    12    12   132   124 rsh jaywalk ps -v 
  11564. e1233    64    60    36    24   140    60   240   144 ps -v 
  11565. 1123c   312   292   336   320    20    20   668   632 mx =80x36 ...
  11566. f1249   112   112    60    56    20    20   192   188 mail bugs 
  11567. -----------------------------------------------------
  11568. Total     0     0     0     0     0     0     0     0
  11569.     ^^^^^^^^^^^^^^^^^^^^^^ Wrong
  11570. jaywalk% 
  11571.  
  11572. Very weird!!
  11573.  
  11574.  
  11575.  
  11576.  
  11577. 1365.
  11578. Date: Thu, 12 Jul 90 23:37:04 PDT
  11579. From: shirriff (Ken Shirriff)
  11580. Subject: Interesting ds3100 crash
  11581.  
  11582. I had a program that did repeated illegal instructions, so it printed
  11583. "Reserved instruction in process..." to the syslog a whole bunch.  Eventually
  11584. the syslog buffer overflowed, so at the bottom of the screen it printed:
  11585. "Dev_SyslogWrite: Buffer", and then hung.  It doesn't respond to L1-D or L1-A.
  11586.  
  11587.  
  11588.  
  11589.  
  11590. 1366.
  11591. Date: Fri, 13 Jul 90 10:55:45 PDT
  11592. From: ouster (John Ousterhout)
  11593. Subject: Mustard hanging migrations?
  11594.  
  11595. I tried running pmakes twice this morning on Piracy, and both times they
  11596. hung up in un-killable states.  At about the same time in each case,
  11597. a message "RpcDoCall (mig command) RPC to must is hung" appeared on the
  11598. syslog.  Rup lists mustard as up, but ping and other network commands
  11599. don't work to it.
  11600.  
  11601.  
  11602.  
  11603.  
  11604. 1367.
  11605. Date: Fri, 13 Jul 90 15:32:59 PDT
  11606. From: eklee (Edward K. Lee)
  11607. Subject: pmake does not properly expand shell metasymbols
  11608.  
  11609. --- Makefile ---
  11610. {a,b,c}.o :
  11611.     echo %@
  11612. ---
  11613. forgery% pmake
  11614. --- a.o ---
  11615. echo a.o
  11616. a.o
  11617. forgery% 
  11618.  
  11619. According to the pmake documentation, {a,b,c}.o should be expanded to
  11620. a.o, b.o, c.o.
  11621.  
  11622.  
  11623.  
  11624.  
  11625. 1368.
  11626. Date: Fri, 13 Jul 90 22:35:26 PDT
  11627. From: kupfer (Mike Kupfer)
  11628. Subject: sage% man chpass
  11629.  
  11630. I did "man chpass" and got
  11631.  
  11632.   sage% man chpass
  11633.   Reformatting manual entry.  Please wait...
  11634.   sage% 
  11635.  
  11636. ls shows a new zero-length file.
  11637.  
  11638.  
  11639.  
  11640.  
  11641. 1369.
  11642. Date: Fri, 13 Jul 90 23:16:41 PDT
  11643. From: Mike Kupfer <kupfer>
  11644. Subject: can't change shell
  11645.  
  11646. I dunno if this is a bug or an administration glitch.  At any rate,
  11647. I can't seem to change my shell (to tcsh).  chpass complains that it doesn't
  11648. know who I am.
  11649.  
  11650.   sage% chpass kupfer
  11651.   chpass: unknown user kupfer.
  11652.  
  11653.  
  11654.  
  11655.  
  11656. 1370.
  11657. Date: Fri, 13 Jul 90 19:15:30 PDT
  11658. From: bsw!adam@uunet.UU.NET (Adam de Boor)
  11659. Subject: pmake does not properly expand shell metasymbols
  11660.  
  11661. You are right in saying that "{a,b,c}.o" expands to "a.o b.o c.o" but
  11662. they are not treated as a single target. Rather, you've created three
  11663. separate targets "a.o", "b.o" and "c.o" each of which can be remade by
  11664. the command
  11665.  
  11666.     echo %@
  11667.  
  11668. where %@ is either "a.o", "b.o" or "c.o". Nowhere in the documentation
  11669. does it imply that "{a,b,c}.o" creates a special group target...
  11670.  
  11671.  
  11672.  
  11673.  
  11674. 1371.
  11675. Date: Sat, 14 Jul 90 00:22:11 PDT
  11676. From: elm (ethan miller)
  11677. Subject: tcsh problems
  11678.  
  11679. On the sun4c, I have problems logging in with tcsh occasionally.  This only
  11680. happens on the sun4c (as far as I know, it has never even happened on the
  11681. sun4).  I get a MachWindowUnderflow (or Overflow, I don't remember which).
  11682. I can reproduce this bug pretty regularly, though it helps if the
  11683. machine I'm logging into hasn't been using tcsh in a while.  tcsh crashes
  11684. sometime between the last command in my .login file and presenting the
  11685. prompt.  Any ideas what is causing this?  It has been happening for quite
  11686. some time (several months).  I've mentioned it before, but nothing was
  11687. done.
  11688.  
  11689.  
  11690.  
  11691.  
  11692. 1372.
  11693. Date: Sat, 14 Jul 90 00:25:39 PDT
  11694. From: elm (ethan miller)
  11695. Subject: more on tcsh bug
  11696.  
  11697. To aid in debugging, I've left a copy of tcsh in the debugger on joyride.
  11698. Its process ID is 24a22.  I tried changing the last command in my .login
  11699. from an uptime command to echo "".  Same thing happened (the login shell
  11700. died just before the prompt).
  11701.  
  11702.  
  11703.  
  11704.  
  11705. 1373.
  11706. Date: Sat, 14 Jul 90 15:44:57 PDT
  11707. From: eklee (Edward K. Lee)
  11708. Subject: Re: pmake does not properly expand shell metasymbols
  11709.  
  11710. >From bsw!adam@uunet.UU.NET Sat Jul 14 00:06:33 1990
  11711. Date: Fri, 13 Jul 90 19:15:30 PDT
  11712. From: bsw!adam@uunet.UU.NET (Adam de Boor)
  11713. To: eklee@sprite.Berkeley.EDU
  11714. Cc: bugs@sprite.Berkeley.EDU
  11715. In-Reply-To: Edward K. Lee's message of Fri, 13 Jul 90 15:32:59 PDT <9007132232.AA928536@sprite.Berkeley.EDU>
  11716. Subject: pmake does not properly expand shell metasymbols
  11717.  
  11718. >You are right in saying that "{a,b,c}.o" expands to "a.o b.o c.o" but
  11719. >they are not treated as a single target. Rather, you've created three
  11720. >separate targets "a.o", "b.o" and "c.o" each of which can be remade by
  11721. >the command
  11722. >
  11723. >    echo %@
  11724. >
  11725. >where %@ is either "a.o", "b.o" or "c.o". Nowhere in the documentation
  11726. >does it imply that "{a,b,c}.o" creates a special group target...
  11727.  
  11728. I realize that.  I was trying to make each individually.
  11729. I assumed incorrectly that a Makefile of the form:
  11730. a.o b.o c.o:
  11731.     echo %@
  11732.  
  11733. would cause the first dependency to be made but make actually only makes
  11734. the first target.
  11735.  
  11736. I what I meant was:
  11737. all:a.o b.o c.o
  11738. a.o b.o c.o:
  11739.     echo %@
  11740.  
  11741.  
  11742.  
  11743.  
  11744. 1374.
  11745. Date: Mon, 16 Jul 90 11:04:07 PDT
  11746. From: ouster (John Ousterhout)
  11747. Subject: Bad morning for Allspice
  11748.  
  11749. When I came in at 8:20 this morning, Allspice was dead.  It took until
  11750. about 10:45 to get Sprite back up again.  Here's the sequence of events
  11751. that occurred:
  11752.  
  11753. 1. When I arrived, Allspice was in the debugger with a Level 15 Interrupt.
  11754. In addition, Mint was out of disk space in "/".  I don't know if the
  11755. two events could be relate.
  11756.  
  11757. 2. The reason that "/" was full was the ip.out file for burble, which
  11758. had grown to 1.5 Mbytes.  I recall messages from Thorsten a while ago
  11759. about changing the ipServer on some machines;  could this have generated
  11760. the huge file?  Thorsten, could you look into this and make sure that
  11761. Burble's ip.out file won't go crazy again?  Finding the culprit took a
  11762. long time ("du" spent about 20 minutes printing timeout messages for
  11763. devices on machines that aren't running Sprite).
  11764.  
  11765. 3. As part of freeing up space I had to enter 440 Evans and manually
  11766. reboot burble (the ipServer still had the file open so its space didn't
  11767. free up;  I couldn't rlogin to get the pid for the process;  and attempts
  11768. to reboot it remotely had no effect).  I couldn't tell which machine
  11769. in 440 was burble, so I rebooted crackle too.
  11770.  
  11771. 4. While freeing space on "/" I rebooted Allspice.  The first two
  11772. times were with the JHH kernel advertised cryptically on a loose sheet
  11773. of paper on top of Allspice's console.  At a very early point in rebooting
  11774. (before starting to check disks) Allspice crashed with another Level 15
  11775. Interrupt.  Note that I hadn't yet eliminated the space problem on "/"
  11776. when the second crash occurred.
  11777.  
  11778. 5. The next time I rebooted Allspice was after space had been freed on
  11779. "/".  This time it checked all the disks, but at one point along the
  11780. way printed a message about a write error on one of the disks.  After
  11781. checking the disks, Allspice didn't export any of them, but bailed to
  11782. a shell (no noticeable message about why).
  11783.  
  11784. 6. At this point I began to suspect the JHH kernel, so I rebooted with
  11785. "sun4.new".  This kernel crashed during the disk check with a message
  11786. about a bad kernel page fault.  The pc where the bad reference was made
  11787. was 0xf6034d34, and the bad reference was to address 0x18c.
  11788.  
  11789. 7. I rebooted Allspice again (sun4.new) and the same error occurred at
  11790. the same place.  At this point I decided that sun4.new was bad.
  11791.  
  11792. 8. I rebooted Allspice again, with the JHH kernel, and this time it
  11793. got all the way through booting.
  11794.  
  11795.  
  11796.  
  11797. 1375.
  11798. Date: Mon, 16 Jul 1990 11:19:13 PDT
  11799. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  11800. Subject: Re: Bad morning for Allspice
  11801.  
  11802. The JHH kernel was the correct one to boot.  There is a message to
  11803. that effect on the console.
  11804.  
  11805. A write error to a disk is considered a hard error.  The response
  11806. for a hard error is to bail to a shell, so that someone may
  11807. fix the problem.
  11808.  
  11809.  
  11810.  
  11811.  
  11812. 1376.
  11813. Date: Mon, 16 Jul 90 11:53:20 PDT
  11814. From: shirriff (Ken Shirriff)
  11815. Subject: Mustard crash
  11816.  
  11817. Mustard crashed but the debugger kept timing out and resending.
  11818. It crashed with a TLB Load/Store at 0x800884fc running 1.068.
  11819. Debugging I got:
  11820. Bus error [Net_NetToHostShort.Net_NetToHostShort:53 ,0x800884fc]
  11821. and then it kept timing out and resending.
  11822. The code is:
  11823. >*[Net_NetToHostShort:53, 0x800884fc]   lbu     r15,6(sp)
  11824. and the stack pointer is 0xc100bce0.  This code is in the startup code
  11825. for Net_NetToHostShort to save registers.
  11826.  
  11827. Two questions:
  11828. a) Why did this instruction crash?  (The surrounding instructions are similar).
  11829. b) Why did the debugger time out whenever I tried examining anything?
  11830.  
  11831.  
  11832.  
  11833.  
  11834. 1377.
  11835. Date: Mon, 16 Jul 90 21:10:26 PDT
  11836. From: pmchen (Peter M. Chen)
  11837. Subject: rup
  11838.  
  11839. rup seems to give erroneous information.  sage is down now,
  11840. but rup lists it as up.  Also, allspice is up, but rup lists it
  11841. as down.  This hangs migrations which are unlucky enough to
  11842. migrate to a host which is down but listed as up.
  11843.  
  11844.  
  11845.  
  11846.  
  11847. 1378.
  11848. Date: Tue, 17 Jul 90 10:14:34 PDT
  11849. From: shirriff (Ken Shirriff)
  11850. Subject: Kernel install howto
  11851.  
  11852. /sprite/admin/howto says:
  11853.  
  11854. > 3) *for each machine type*, recompile all the kernel directories:
  11855. > % pmake TM=... clean
  11856. > % pmake TM=... all
  11857.  
  11858. But if I do this, 'pmake TM=ds3100 all', for example, ends up compiling
  11859. for all machine types.  This means a) I end up compiling sun versions
  11860. on the ds3100; b) everything ends up compiled 4 times.
  11861.  
  11862. So what is the proper incantation to compile the kernel modules?
  11863.  
  11864.  
  11865.  
  11866.  
  11867. 1379.
  11868. Date: Tue, 17 Jul 90 10:27:53 PDT
  11869. From: mgbaker (Mary Gray Baker)
  11870. Subject: Re: Kernel install howto
  11871.  
  11872. Hmmm...  Maybe Fred just meant one compile for each machine type.  That's
  11873. what I do.  I spread out the work by logging into some sun4c and doing the
  11874. sun4c compiles and maybe the sun4 or sun3 compiles.  I only do the ds3100
  11875. compiles on a decstation, since I usually get so many migration errors on the
  11876. decstations that it's not worth it to compile the other machine types there.
  11877.  
  11878.  
  11879.  
  11880.  
  11881. 1380.
  11882. Date: Tue, 17 Jul 90 12:13:08 PDT
  11883. From: pmchen (Peter M. Chen)
  11884. Subject: last allspice "crash"
  11885.  
  11886. Right before allspice hung this morning (around noon), I had started
  11887. a pmake which spawned off several (5, I think) simulations, each of
  11888. which uses 10-20MB of memory.  The pmake was started from mercenary
  11889. (sun4c).
  11890.  
  11891. I'm not sure why this would hang allspice, unless the programs were
  11892. thrashing or /swap1 filled up.  But there were still 53 MB free on 
  11893. /swap1 when I looked (after the simulations were running).  And
  11894. 10-20 MB should have mostly fit in a sparcstation's memory
  11895. (I have a ps -v output which says they were all mostly memory resident).
  11896.  
  11897.  
  11898.  
  11899.  
  11900. 1381.
  11901. Date: Tue, 17 Jul 90 14:35:50 PDT
  11902. From: shirriff (Ken Shirriff)
  11903. Subject: Net_InstallRoute
  11904.  
  11905. With my new kernel, I get:
  11906.     Warning: Net_InstallRoute: bad name arg
  11907.     Initsprite: boot command file exited abnormally
  11908. on the sun3.  Before I investigate, does anyone know why this would happen?
  11909.  
  11910. Bonus question:  what's the easiest way to check inside the kernel if
  11911. an address is a valid kernel address?  I.e. I'm given a pointer and I
  11912. want to know if I can read the address without a bus error.
  11913.  
  11914.  
  11915.  
  11916.  
  11917. 1382.
  11918. Date: Tue, 17 Jul 90 13:35:07 PDT
  11919. From: mendel (Mendel Rosenblum)
  11920. Subject: Re: last allspice "crash"
  11921.  
  11922. >Right before allspice hung this morning (around noon), I had started
  11923. >a pmake which spawned off several (5, I think) simulations, each of
  11924. >which uses 10-20MB of memory.  The pmake was started from mercenary
  11925. >(sun4c).
  11926. >
  11927. >I'm not sure why this would hang allspice, unless the programs were
  11928. >thrashing or /swap1 filled up.  But there were still 53 MB free on 
  11929. >/swap1 when I looked (after the simulations were running).  And
  11930. >10-20 MB should have mostly fit in a sparcstation's memory
  11931. >(I have a ps -v output which says they were all mostly memory resident).
  11932. >
  11933. >Pete
  11934. >
  11935.  
  11936. There are several problems here.  One is that 5*20MB is more swap space than is
  11937. usally available. Migration works by swapping out the program and swapping it 
  11938. back in on the new machine. This means that swap space gets allocated for
  11939. these processes during evict and doesn't get freed until the process exits.
  11940. Last night /swap1 filled because of this reason.  Also the current client
  11941. swapping code pounds allspice into the ground. Evicting a 20Meg process 
  11942. will cause allspice to become unusable for many (< 3 ) minutes. So /swap1 
  11943. fills killing other processes that try to allocate space and allspice hangs or
  11944. times-outs.  In addition, there are several sun4c running Sprite with 16Megs 
  11945. of memory.  If a 20Meg job gets on one of these machines allspice gets 
  11946. pounded.  This happen with burble last night.  It appears that one thrashing
  11947. sun4c or ds3100 can drive allspice catatonic. 
  11948.  
  11949.  
  11950.  
  11951.  
  11952. 1383.
  11953. Date: Tue, 17 Jul 90 14:43:40 PDT
  11954. From: shirriff (Ken Shirriff)
  11955. Subject: Re: adduser script
  11956.  
  11957. I changed adduser to be world-executable so Bob can run it.  I presume
  11958. we don't want to leave it this way, but should have Bob and adduser
  11959. in the same group.
  11960.  
  11961.  
  11962.  
  11963.  
  11964.  
  11965. 1384.
  11966. Date: Tue, 17 Jul 1990 15:12:34 PDT
  11967. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  11968. Subject: sprite labels obsolete
  11969.  
  11970. We had a potentially very serious situation this afternoon in which
  11971. assault could not attach 4 of its 5 disks.  The bottom line is that
  11972. those disks had Sprite labels, and Sprite labels are no longer
  11973. supported.  I was able to find an old copy of labeldisk that 
  11974. understood Sprite labels so they now have Dec labels.  This mishap
  11975. was my fault since I removed the support for Sprite labels before
  11976. actually verifying that there weren't any disks that used
  11977. them.  I assumed that they had been changed back when Dec labels
  11978. became available.  
  11979.  
  11980.  
  11981.  
  11982.  
  11983. 1385.
  11984. Date: Tue, 17 Jul 90 15:29:57 PDT
  11985. From: elm (ethan miller)
  11986. Subject: xload troubles
  11987.  
  11988. On my sparcstation (terrorism), xload has been dying a lot recently.
  11989. It doesn't seem to be the normal sort of thing (Fred playing with
  11990. the migration daemon).  Any ideas?
  11991.  
  11992.  
  11993.  
  11994.  
  11995. 1386.
  11996. Date: Tue, 17 Jul 90 15:57:29 PDT
  11997. From: mgbaker (Mary Gray Baker)
  11998. Subject: More on tcsh problem
  11999.  
  12000. I'm relaying more information on the tcsh/sun4c problem from Ethan.
  12001. He thinks the problem may have something to do with the savehist feature,
  12002. since when it dies it always dies in a routine dealing with the history
  12003. file.  There's something going on with a sighold on SIG_INT and a worrisome
  12004. comment in the code about getting any signals there.  Also, the program
  12005. seems to die less frequently if Ethan keeps a shorter history.
  12006.  
  12007.  
  12008.  
  12009.  
  12010. 1387.
  12011. Date: Tue, 17 Jul 1990 16:44:39 PDT
  12012. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  12013. Subject: bug in rpc system
  12014.  
  12015. A 'chmod' of a remote device that does not exist doesn't
  12016. work.  On the local host I get the following message:
  12017.  
  12018. <setIOAttr> 7/17/90 16:39:30 kvetching (2) RPC timed-out
  12019. Fsrmt_SetIOAttr failed <30002>: device <2,1> at server 2
  12020.  
  12021. On the remote machine I get :
  12022.  
  12023. RpcResend: RPC 23, client 49, RPC seq # 19ae9, forgot reply?
  12024. RpcResend: RPC 23, client 49, RPC seq # 19ae9, forgot reply?
  12025. RpcResend: RPC 23, client 49, RPC seq # 19ae9, forgot reply?
  12026. RpcResend: RPC 23, client 49, RPC seq # 19ae9, forgot reply?
  12027. RpcResend: RPC 23, client 49, RPC seq # 19ae9, forgot reply?
  12028. RpcResend: RPC 23, client 49, RPC seq # 19ae9, forgot reply?
  12029. RpcResend: RPC 23, client 49, RPC seq # 19ae9, forgot reply?
  12030.  
  12031. All of this takes several seconds to happen, and 'update'
  12032. does it twice for each device.  This causes an 'update'
  12033. of '/' to take approximately forever.
  12034.  
  12035.  
  12036.  
  12037.  
  12038. 1388.
  12039. Date: Wed, 18 Jul 90 12:07:16 PDT
  12040. From: pmchen (Peter M. Chen)
  12041. Subject: LE ethernet: Memory underflow error.
  12042.  
  12043. I get tons of these messages when I run big jobs on one machine which
  12044. have big swap images.
  12045.  
  12046. LE ethernet: Memory underflow error.
  12047. LE ethernet: Reinitialized chip.
  12048.  
  12049. Also,
  12050.  
  12051. LE ethernet: Received packet with overflow error.
  12052.  
  12053. This has happened on more than one machine.
  12054.  
  12055.  
  12056.  
  12057.  
  12058. 1389.
  12059. Date: Wed, 18 Jul 90 15:25:30 PDT
  12060. From: shirriff (Ken Shirriff)
  12061. Subject: pmake installhdrsall problem
  12062.  
  12063. pmake installhdrsall  chokes on symbolic links.  It keeps telling me:
  12064. Type of "sun4c.md/timerTick.h" (regular file) differs from "../Include/sun4c.md/
  12065. timerTick.h" (symbolic link).
  12066.     Note: following a link to a regular file due to "-l" option.
  12067.  
  12068. If I delete Include/sun4c.md/timerTick.h it then installs properly, and then
  12069. I can start again.
  12070.  
  12071.  
  12072.  
  12073. 1390.
  12074. Date: Wed, 18 Jul 90 16:53:19 PDT
  12075. From: shirriff (Ken Shirriff)
  12076. Subject: mkmf bug?
  12077.  
  12078. I can't convince pmake installhdrs to install vm/sun4c.md/vmMachInt.h.  It
  12079. installs other vm/sun4c.md headers fine.
  12080. After doing a mkmf, sun4c.md/md.mk contains:
  12081. HDRS = ... sun4c.md/vmMachInt.h ...
  12082. MDPUBHRS = ...  with no sun4c.md/vmMachInt.h
  12083. If I put sun4c.md/vmMachInt.h in MDPUBHDRS the header gets installed.
  12084. So why doesn't mkmf put sun4c.md/vmMachInt.h in the MDPUBHDRS like it
  12085. does with sun4c.md/vmMach.h, for instance?
  12086.  
  12087.  
  12088.  
  12089.  
  12090. 1391.
  12091. Date: Wed, 18 Jul 90 20:23:08 PDT
  12092. From: ouster (John Ousterhout)
  12093. Subject: Re: mkmf bug?
  12094.  
  12095. You said:
  12096.     I can't convince pmake installhdrs to install vm/sun4c.md/vmMachInt.h.  It
  12097.     installs other vm/sun4c.md headers fine.
  12098.     After doing a mkmf, sun4c.md/md.mk contains:
  12099.     HDRS = ... sun4c.md/vmMachInt.h ...
  12100.     MDPUBHRS = ...  with no sun4c.md/vmMachInt.h
  12101.     If I put sun4c.md/vmMachInt.h in MDPUBHDRS the header gets installed.
  12102.     So why doesn't mkmf put sun4c.md/vmMachInt.h in the MDPUBHDRS like it
  12103.     does with sun4c.md/vmMach.h, for instance?
  12104.  
  12105. I believe that mkmf has rules about which files are considered "public"
  12106. and which are "private", and that the rules are based on the file's
  12107. name.  As I remember, a header file is considered private if either
  12108. (a) its name doesn't start with the module prefix, or (b) its name
  12109. ends in "Int.h".  I wouldn't think vmMachInt.h should be getting
  12110. installed:  why should anyone outside vm need to access it?
  12111.  
  12112.  
  12113.  
  12114.  
  12115. 1392.
  12116. Date: Thu, 19 Jul 90 09:13:10 PDT
  12117. From: mendel (Mendel Rosenblum)
  12118. Subject: Re: LE ethernet: Memory underflow error.
  12119.  
  12120. This is due to a problem with the sparcStation hardware.  The DMA controller
  12121. does not meet the minimum latency requires of the LANCE ethernet chip.  The
  12122. LANCE has a minimum latency requirement of 3.74 microseconds. If the CPU is
  12123. doing other memory intensive operations such as bcopy or cache flushing the
  12124. LANCE chip over/underruns its fifo and reports an error.   We (Sprite
  12125. group) can't remove this problem but we can remove the printf that report
  12126. it to the syslog.  
  12127.  
  12128.  
  12129.  
  12130.  
  12131. 1393.
  12132. Date: Thu, 19 Jul 90 13:22:49 PDT
  12133. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  12134. Subject: weekly dump failed
  12135.  
  12136. I tried to do a weekly dump last night but it didn't work.
  12137. I kept getting IO errors in allspice's tape drive.  This happened
  12138. on two new tapes.  Murder ran for a little while, then just hung.
  12139. The daily dumps were not done, but I'm doing them right now.
  12140. I plan on doing daily dumps until Bob gets back and he figures out
  12141. what is wrong with the weekly dumps.
  12142.  
  12143.  
  12144.  
  12145.  
  12146. 1394.
  12147. Date: Thu, 19 Jul 90 16:45:46 PDT
  12148. From: shirriff (Ken Shirriff)
  12149. Subject: Install chokes on symbolic links
  12150.  
  12151. In the kernel install, symbolic links are being installed as the actual
  12152. files in the Installed directory.  This is bad because
  12153. mach/sun4.md/sun4/fpu points to .., which
  12154. means the install ends up in an infinite loop following the links.
  12155.  
  12156.  
  12157.  
  12158.  
  12159. 1395.
  12160. Date: Sat, 21 Jul 90 17:28:01 PDT
  12161. From: tve (Thorsten von Eicken)
  12162. Subject: /sprite/cmds.sun4/mkmf corrupted
  12163.  
  12164. A mail message replaced its end.  Ironically, the mail was about mkmf...
  12165.  
  12166.  
  12167.  
  12168.  
  12169. 1396.
  12170. Date: Sat, 21 Jul 90 17:29:32 PDT
  12171. From: tve (Thorsten von Eicken)
  12172. Subject: Re: /sprite/cmds.sun4/mkmf corrupted
  12173.  
  12174. I forgot to mention that I moved the bad file to /sprite/cmds.sun4/mkmf.bad
  12175.  
  12176.  
  12177.  
  12178. 1397.
  12179. Date: Mon, 23 Jul 90 08:56:36 PDT
  12180. From: ouster (John Ousterhout)
  12181. Subject: Corrupted files
  12182.  
  12183. The following files were found to be corrupted over the weekend.  Bob,
  12184. can you restore them from dump tape?
  12185.  
  12186. /sprite/lib/ds3100.md/term/tab450
  12187. /sprite/lib/fonts/pk/ilcmssb8.120pk
  12188.  
  12189. I checked the boottimes file, and at the time of the corruptions Mint was
  12190. running a kernel that does not have the bug fix in it (whew).  At present,
  12191. the "new" kernels *do* have the bug fix.  Mint is now running this kernel,
  12192. but I'm not sure what version Allspice is running (it's a JHH kernel).
  12193.  
  12194.  
  12195.  
  12196.  
  12197. 1398.
  12198. Date: Mon, 23 Jul 90 08:57:02 PDT
  12199. From: ouster (John Ousterhout)
  12200. Subject: Mint was dead when I came in this morning.  It had run out of
  12201.  
  12202. memory.  I rebooted it with the .new kernel.
  12203.  
  12204.  
  12205.  
  12206.  
  12207. 1399.
  12208. Date: Mon, 23 Jul 90 19:06:09 PDT
  12209. From: shirriff (Ken Shirriff)
  12210. Subject: Allspice in debuggger
  12211.  
  12212. Allspice went into the debugger with a Level 15 interrupt (31) at 0xf6056938
  12213. for no apparent reason, so I continued it.  Anyone know why this happened?
  12214.  
  12215.  
  12216.  
  12217. 1400.
  12218. Date: Mon, 23 Jul 90 23:51:51 PDT
  12219. From: root (The Sprite God)
  12220. Subject: /user2 is unavailable
  12221.  
  12222. I rebooted allspice and assault with the new kernels.  Allspice came
  12223. back up without any problems, but assault was unable to attach /user2.
  12224. Fscheck gets a read error when it tries to read a sector in 
  12225. Disk_ReadSummaryInfo().
  12226.  
  12227. I made several attempts to boot the new kernel, and tried the old kernel
  12228. too.  But none of them were able to attach /user2.
  12229.  
  12230.  
  12231.  
  12232.  
  12233. 1401.
  12234. Date: Tue, 24 Jul 90 14:17:30 PDT
  12235. From: shirriff (Ken Shirriff)
  12236. Subject: Mint crash (whining)
  12237.  
  12238. Mint crashed because /sprite filled up and it did:
  12239. Fscache_Write: Alloc failed <1,1> "234" DISK FULL
  12240. Fatal Error: Fscache_DeleteFile failed "43" blocks 1 flags 2800
  12241. Mendel says this is a known bug (thus this is whining).
  12242.  
  12243.  
  12244.  
  12245.  
  12246. 1402.
  12247. Date: Tue, 24 Jul 90 15:39:05 PDT
  12248. From: Fred Douglis <douglis>
  12249. Subject: migd and symmetry
  12250.  
  12251. the migration daemon has apparently been unstable since blackmail has
  12252. been running sprite.  i think this is because blackmail's migd is
  12253. somehow incompatible with the migd everyone else is running, which is
  12254. causing two migration daemons to run in parallel despite the locking
  12255. that normally inhibits this.  the date of /sprite/daemons.sym/migd is
  12256. yesterday.  was this compiled from our sources?
  12257.  
  12258.  
  12259.  
  12260.  
  12261. 1403.
  12262. Date: Tue, 24 Jul 90 17:36:41 PDT
  12263. From: shirriff (Ken Shirriff)
  12264. Subject: Migration problem (whining)
  12265.  
  12266. My pmakes wedge up with:
  12267. MigOpenPdev: Error opening pdev /sprite/admin/migd/pdev (still trying): I/O error.
  12268. It then takes a minute or so before I can get it to quit.
  12269.  
  12270.  
  12271.  
  12272.  
  12273. 1404.
  12274. Date: Tue, 24 Jul 90 17:40:36 PDT
  12275. From: Fred Douglis <douglis>
  12276. Subject: Re: Migration problem (whining)
  12277.  
  12278. this is because the migd daemon, running on two ds3100s this
  12279. afternoon, has died with bogus addresses each time.  normally this
  12280. would cause it to exit, but for some reason it's staying in the
  12281. debugger and hanging rpc's to it.  i'm installing a new ds3100 migd
  12282. binary in the hope that the one that was installed accidentally had
  12283. debugging enabled (thus disabling the code to kill itself on
  12284. SIGDEBUG).  this is likely, since it was also installed incorrectly
  12285. (not setuid).  i must have fouled something up somewhere along the
  12286. line.  
  12287.  
  12288. as for why it's hitting the debugger in the first place... i'm
  12289. investigating.  
  12290.  
  12291.  
  12292.  
  12293.  
  12294. 1405.
  12295. Date: Tue, 24 Jul 90 22:35:52 PDT
  12296. From: shirriff (Ken Shirriff)
  12297. Subject: exec = -1 crash
  12298.  
  12299. It looks to me that the problem with the exec = -1 crash is that mustard
  12300. is sending a FS_CLOSE rpc to mint with the FS_EXECUTE flag, when the
  12301. file wasn't open for execution.  The client checks its use counters,
  12302. so mustard must think the file is open for execution when it's not.
  12303. Maybe mustard is getting its stream pointers messed up?  I don't know
  12304. why this would happen.
  12305.  
  12306. In order to track this down, I recommend booting mustard with an
  12307. instrumented kernel late at night to determine what mustard thinks
  12308. it's doing.  As well, we could put a sanity check in the server side
  12309. of the rpc, so the rpc would fail if the FS_EXECUTE flag is set when
  12310. it shouldn't be (instead of panicing).
  12311.  
  12312.  
  12313.  
  12314.  
  12315. 1406.
  12316. Date: Wed, 25 Jul 90 09:54:45 PDT
  12317. From: ouster (John Ousterhout)
  12318. Subject: Trashed Directory
  12319.  
  12320. The directory /sprite/src/lib/tcl/tests suddenly lost its directory
  12321. property today:  it's now just a regular file (however, it still seems
  12322. to contain the same bits it had when it was a directory).  I've moved
  12323. it to /sprite/src/lib/tcl/tests.bad, in case anyone cares to look at
  12324. it, but I'm not sure what can be done at this point.
  12325.  
  12326.  
  12327.  
  12328.  
  12329.  
  12330. 1407.
  12331. Date: Wed, 25 Jul 1990 10:45:23 PDT
  12332. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  12333. Subject: Re: Trashed Directory
  12334.  
  12335. It looks like when fscheck tried to read the directory the read 
  12336. failed.  This failure propagated up a few levels in fscheck, where
  12337. it decided that the directory was empty, so it changed it to a
  12338. file.  All of the files that used to be in the directory should
  12339. be in lost+found (fscheck put 14 there).
  12340.  
  12341.  
  12342.  
  12343.  
  12344. 1408.
  12345. Date: Wed, 25 Jul 90 11:02:25 PDT
  12346. From: Fred Douglis <douglis>
  12347. Subject: ds3100 vm tlb bug
  12348.  
  12349. piquante died during a migration with the following backtrace:
  12350.  
  12351. >  0 panic(va_alist = -2146451376) ["sysPrintf.c":209, 0x800c13f4]
  12352.    1 .block603 ["ds3100.md/vmPmax.c":1199, 0x800c6b18]
  12353.    2 VmMach_PageValidate(virtAddrPtr = 0xc11abbcc, pte = 3252687542) ["ds3100.md/vmPmax.c":1199, 0x800c6b18]
  12354.    3 VmPageValidateInt(virtAddrPtr = 0x80161400, ptePtr = (nil)) ["vmPage.c":652, 0x800cbd7c]
  12355.    4 VmPageValidate(virtAddrPtr = 0xc11abbcc) ["vmPage.c":623, 0x800cbd08]
  12356.    5 VmCOWCopySeg(segPtr = 0x80190fac) ["vmCOW.c":322, 0x800c88c8]
  12357.    6 Vm_InitiateMigration(procPtr = 0xc02ad91c, hostID = 2, infoPtr = 0xc11abd10) ["vmMigrate.c":96, 0x800ca870]
  12358.    7 Proc_MigrateTrap(procPtr = 0xc02ad91c) ["procMigrate.c":564, 0x800a18f0]
  12359.    8 Sig_Handle(procPtr = 0xfc34, sigStackPtr = 0xc11abe3c, pcPtr = 0xc11abe38) ["signals.c":1205, 0x800bb330]
  12360.    9 .block15 ["ds3100.md/machCode.c":1275, 0x800382a4]
  12361.   10 MachUserReturn(procPtr = 0xc02ad91c) ["ds3100.md/machCode.c":1275, 0x800382a4]
  12362.   11 MachSysCall(0xffffffff, 0x43709c, 0x7ddfa6f4, 0x43709c, 0xfc0c) ["ds3100.md/machAsm.s":1531, 0x80036ac4]
  12363.  
  12364. i'm confused because VmMach_PageValidate does the following:
  12365.  
  12366.     retVal = VmMachWriteTLB(lowEntry, highEntry);
  12367.     if (retVal >= 0 && !(machPtr->modPage == virtPage)) {
  12368.         panic("VmMach_PageValidate: Non-modified user TLB entry found\n");
  12369.     }
  12370.  
  12371. and retVal is supposedly < 0 (it's -1071923224 == 0xc01bbfe8), so i
  12372. don't see why the panic would be reached.  [also, the code
  12373. for VmMachWriteTLB says it doesn't return a value, though it
  12374. implicitly returns a value by setting v0.  i'll change that.]
  12375.  
  12376. by the way, machPtr->modPage is 0 while virtPage is 65536.  
  12377.  
  12378.  
  12379.  
  12380.  
  12381. 1409.
  12382. Date: Tue, 24 Jul 90 13:22:18 PDT
  12383. From: shirriff (Ken Shirriff)
  12384. Subject: Crashes this morning
  12385.  
  12386. The crashes this morning seem to be due to mustard being a poison machine
  12387. again.  Mint would keep crashing after mustard was rebooted, with the
  12388. use.exec = -1 problem.  I told Pete to leave mustard dead until we figure
  12389. out the problem.  I'm hoping my debugging statements in the new kernel
  12390. will let me figure out the problem.  Otherwise I'll reboot mustard late
  12391. at night and continue debugging.
  12392.  
  12393.  
  12394.  
  12395.  
  12396.  
  12397. 1410.
  12398. Date: Wed, 25 Jul 90 14:32:28 PDT
  12399. From: Fred Douglis <douglis>
  12400. Subject: spritemon won't compile (whining)
  12401.  
  12402. it includes X11/Load.h, which no longer exists.  it looks like perhaps
  12403. the spritemon in /X11/R4/src/cmds/spritemon is actually an R3 version?
  12404.  
  12405. spritemon doesn't properly report the number of remote processes due
  12406. to a change to the kernel statistics buffer.
  12407.  
  12408.  
  12409.  
  12410.  
  12411. 1411.
  12412. Date: Wed, 25 Jul 90 14:45:57 PDT
  12413. From: mendel (Mendel Rosenblum)
  12414. Subject: Re: spritemon won't compile (whining)
  12415.  
  12416. > it includes X11/Load.h, which no longer exists.  it looks like perhaps
  12417. > the spritemon in /X11/R4/src/cmds/spritemon is actually an R3 version?
  12418.  
  12419. Someone removed the R3 header file X11/Load.h.  Spritemon quit using 
  12420. this file when I converted it to R4 but I forgot to delete it from the
  12421. include list. It's gone now.
  12422.  
  12423.  
  12424.  
  12425.  
  12426.  
  12427. 1412.
  12428. Date: Wed, 25 Jul 90 21:57:35 PDT
  12429. From: shirriff (Ken Shirriff)
  12430. Subject: Allspice crash (whining)
  12431.  
  12432. Allspice crashed this evening and wouldn't respond to the keyboard or
  12433. the reset button, so I power-cycled it.  Several minutes before the
  12434. crash it had consistency timeouts with blackjack.
  12435.  
  12436.  
  12437.  
  12438.  
  12439. 1413.
  12440. Date: Thu, 26 Jul 90 14:27:10 PDT
  12441. From: Fred Douglis <douglis>
  12442. Subject: inconsistent file length
  12443.  
  12444. in trying to check to see what version of the kernel everyone was
  12445. running, i came across a bad /hosts/blackmail/boottime file.  however, it's
  12446. only bad on machines other than blackmail.  kvetching & larceny report
  12447. the length of the file as 157, with contents
  12448.  
  12449. Wed Jul 25 21:48:55 PDT 1990 blackmail SPRITE VERSION 1.165 (sym 17 Jul 90 11:21:00)
  12450. :55:09 PDT 1990 blackmail SPRITE VERSION 1.165 (sym 17 Jul 90 11:21:00)
  12451.  
  12452.  
  12453. while blackmail reports it as 85 with only the first line in the file.
  12454.  
  12455.  
  12456.  
  12457.  
  12458. 1414.
  12459. Date: Thu, 26 Jul 90 14:38:36 PDT
  12460. From: mendel (Mendel Rosenblum)
  12461. Subject: Re: inconsistent file length
  12462.  
  12463. > in trying to check to see what version of the kernel everyone was
  12464. > running, i came across a bad /hosts/blackmail/boottime file.  however, it's
  12465. > only bad on machines other than blackmail.  kvetching & larceny report
  12466. > the length of the file as 157, with contents
  12467.  
  12468. Here's a wild guess at the problem.  Blackmail is currently running with a
  12469. format type that is not known by the rest of the Sprite system.  This means
  12470. that ioctl between machines (such as the truncate ioctl) wont work.  Perhaps
  12471. blackmail tried to truncate the file and it worked locally but not on the
  12472. file servers. This demonstrates the main disadvantage of receiver makes
  12473. right protocols. A new system can't talk until everyone has been updated to
  12474. understand its language.
  12475.  
  12476.  
  12477.  
  12478.  
  12479. 1415.
  12480. Date: Thu, 26 Jul 90 14:43:04 PDT
  12481. From: Fred Douglis <douglis>
  12482. Subject: Re: inconsistent file length 
  12483.  
  12484. yes, that makes sense, since i already mentioned to fubar that mint &
  12485. allspice had lots of "invalid format" messages in their syslogs.  the
  12486. same problem occurred with migd, which had to be relinked with a new c
  12487. library that understood the sequent format.
  12488.  
  12489.  
  12490.  
  12491.  
  12492. 1416.
  12493. Date: Thu, 26 Jul 90 17:20:27 PDT
  12494. From: culler (David Culler)
  12495. Subject: Ehhh?
  12496.  
  12497. Latex gets a segmentation fault runnig on cardamom, but not on gluttony.
  12498.  
  12499.  
  12500.  
  12501.  
  12502. 1417.
  12503. Date: Thu, 26 Jul 90 17:22:04 PDT
  12504. From: Fred Douglis <douglis>
  12505. Subject: bitrot (whining)
  12506.  
  12507. whatever happened to the idea of recompiling the world every so often
  12508. to make sure things were consistent?  it turns out that the
  12509. "rcssnapshot" program was last installed for the sun4 over a year ago,
  12510. and it didn't have the fixes to permit it to operate on directories
  12511. that are stored on a file server of a different byte order.
  12512. surprisingly, there was still an unstripped executable image for the
  12513. program, so i tried debugging that version to see what was wrong --
  12514. meaning i wasted time trying to debug rcssnapshot when it turned out
  12515. only a reinstall was necessary.
  12516.  
  12517. i suppose the simple answer is that everything will be relinked once
  12518. the new unix-compatible calls are in place.  i'm still surprised that
  12519. we could go a year without recompiling system programs.  
  12520.  
  12521.  
  12522.  
  12523.  
  12524. 1418.
  12525. Date: Sat, 28 Jul 90 10:01:36 PDT
  12526. From: ouster (John Ousterhout)
  12527. Subject: adduser and sprite-users (whining)
  12528.  
  12529. The "adduser" script always adds the new user intot the "sprite-users"
  12530. mailing list.  Shouldn't it be modified to allow a choice of which
  12531. mailing list to put the person in?
  12532.  
  12533.  
  12534.  
  12535.  
  12536. 1419.
  12537. Date: Sun, 29 Jul 90 22:04:13 PDT
  12538. From: elm (ethan miller)
  12539. Subject: problems with lpd on sun4c (whining)
  12540.  
  12541. I was unable to print from terrorism, joyride, or sage to the Postscript
  12542. printer (ps) on the 5th floor.  Every time I tried, the message came
  12543. back "ginger.Berkeley.EDU: /usr/lib/lpd: : Your host does not have line
  12544. printer access"
  12545. So why is this a Sprite bug?  I was able to print from allspice, and
  12546. I was able to check the queue from heresy.  Allspice is entered in
  12547. /etc/hosts.equiv on ginger, and heresy is not.  Terrorism and
  12548. sage are entered, and joyride isn't, so this doesn't seem to be a
  12549. problem I had earlier with printing from Sprite (then again, it
  12550. might be).
  12551.  
  12552.  
  12553.  
  12554.  
  12555. 1420.
  12556. Date: Mon, 30 Jul 90 08:40:40 PDT
  12557. From: ouster (John Ousterhout)
  12558. Subject: Mint crash (whining)
  12559.  
  12560. Mint was dead when I came in this morning.  It had run out of
  12561. memory.  I rebooted it with "sun3.new".  This is the 2nd Monday
  12562. morning in a row where this has happened;  it makes me that
  12563. (a) there's a core leak in the kernel, and (b) there might be
  12564. some activity happening every Sunday night that is triggering
  12565. the problem.  Both times the crash has occurred while the
  12566. checksummer has been running.  However, when the crash occurred
  12567. the checksummer was running on Allspice, not Mint.
  12568.  
  12569.  
  12570.  
  12571.  
  12572. 1421.
  12573. Date: Mon, 30 Jul 90 12:57:18 PDT
  12574. From: pmchen (Peter M. Chen)
  12575. Subject: talk incompatibility (whining)
  12576.  
  12577. I can't use the "talk" program between unix machines and sprite.  I get
  12578. [Error on read from talk daemon : connection refused (61)]
  12579.  
  12580. >From unix to sprite it gets hung on
  12581. [Checking for invitation on caller's machine]
  12582.  
  12583. Talk still works between sprite machines.
  12584.  
  12585.  
  12586.  
  12587.  
  12588. Date: Mon, 30 Jul 90 13:05:27 PDT
  12589. From: Fred Douglis <douglis>
  12590. Subject: Re: talk incompatibility (whining)
  12591.  
  12592. pete's mail was in response to my asking him this question.  the
  12593. problem isn't sprite, per se.  sprite supports only ntalkd, while
  12594. sunOS supports only the old talk.  BSD has both talk and
  12595. /usr/old/talk.  i guess we could support both as well if someone cared
  12596. to port it.
  12597.  
  12598.  
  12599.  
  12600.  
  12601. 1422.
  12602. Date: Mon, 30 Jul 90 17:35:07 PDT
  12603. From: Fred Douglis <douglis>
  12604. Subject: arson,violence
  12605.  
  12606. arson bailed to a shell trying to boot my kernel (made from all
  12607. uninstalled sources earlier today).  did it need to be booted with
  12608. something special, like "--c"?  last time i looked, arson didn't have
  12609. a disk, and i didn't see a note about how to boot it.
  12610.  
  12611. violence didn't boot at all.  i followed the instructions on the
  12612. post-it note saying to boot "--c".  i couldn't tell why it wasn't
  12613. booting since the monitor is fried.
  12614.  
  12615.  
  12616.  
  12617.  
  12618. 1423.
  12619. Date: Mon, 30 Jul 90 17:50:18 PDT
  12620. From: shirriff (Ken Shirriff)
  12621. Subject: Allspice, assault crashes (whining)
  12622.  
  12623. Allspice died with disk full, delete failed.
  12624. Assault died with Vm_RawAlloc: out of memory.
  12625.  
  12626.  
  12627.  
  12628.  
  12629. 1424.
  12630. Date: Mon, 30 Jul 90 16:53:39 PDT
  12631. From: douglis@rosemary.Berkeley.EDU (Fred Douglis)
  12632. Subject: login syslog message and typeahead (whining)
  12633.  
  12634. the new version of login prints "login failure" when one name is typed and
  12635. then another one is. not only is this annoying if, for example, one mistypes
  12636. an account name, but it also causes echoing to be disabled slightly later than
  12637. expected --- meaning the start of one's password may be echoed inadvertently.
  12638.  
  12639.  
  12640.  
  12641.  
  12642. 1425.
  12643. Date: Tue, 31 Jul 90 10:42:12 PDT
  12644. From: Fred Douglis <douglis>
  12645. Subject: migd/sun4 cache writeback error bug  (whining)
  12646.  
  12647. no one ever reported the bug that mendel noticed several days ago, in
  12648. which the global migration daemon crashes sun4s upon exit if someone
  12649. performs an operation on one of its pdevs at the wrong time.  it's
  12650. present in the current .new kernel and will apparently be present in
  12651. the next .new kernel, so better hope migd doesn't pick allspice (or anise)
  12652. to run the global daemon on.
  12653.  
  12654.  
  12655.  
  12656.  
  12657. 1426.
  12658. Date: Tue, 31 Jul 90 11:44:33 PDT
  12659. From: shirriff (Ken Shirriff)
  12660. Subject: rup is confused (whining)
  12661.  
  12662. rup gives:
  12663. [...]
  12664.           nutmeg     sun3 down   1+08:45        
  12665.  
  12666. I'm on nutmeg and it's been up since the 27th.
  12667.  
  12668.  
  12669.  
  12670.  
  12671. 1427.
  12672. Date: Tue, 31 Jul 90 11:49:45 PDT
  12673. From: Fred Douglis <douglis>
  12674. Subject: Re: rup is confused (whining) 
  12675.  
  12676. sounds from the time it "crashed" -- 3am monday -- that it's related
  12677. to the overnight file server crash.  migd is pretty resilient, but i'm
  12678. not at all surprised that the crash of a server would cause migd to
  12679. flake out once every so often.  i guess we could run a migd watchdog, like
  12680. we do for the ipServer, but it doesn't seem worth it unless this
  12681. presents a bigger problem.  
  12682.  
  12683.  
  12684.  
  12685.  
  12686. 1428.
  12687. Date: Tue, 31 Jul 90 12:38:54 PDT
  12688. From: mendel (Mendel Rosenblum)
  12689. Subject: problems in sun4 mach module
  12690.  
  12691. Bug 1)
  12692.  
  12693. In sun4.md/machCode.c, routine Mach_Init():   Several consistency checks are
  12694. done are panic() is called if they fail.  Unfortunately the code implementing
  12695. panic() hasn't been initialized yet so the machine prints "Fatal Error: " and
  12696. hangs with interrupts disabled.   This code should be changed to use
  12697. Mach_MonPrintf() which will work before the sys module is initialized.  
  12698.  
  12699. Bug 2)
  12700.  
  12701. In mach.h where MachSignalStack is declared there is a comment that says
  12702. "This must a multiple of double-words!!!!".  This comment is enforced by 
  12703. the "Fatal Error: " message if it is not observed. Unfortunately, 
  12704. MachSignalStack contains two structures (Sig_Stack and Sig_Context) 
  12705. from outside the mach module that contain no comments or guarantees of
  12706. size or alignment.  Before Ken added four bytes to Sig_Stack, Sig_Stack
  12707. was 12 bytes and Sig_Context was 420 which added together to be double 
  12708. word size.  After Ken added four bytes to Sig_Stack, the sun4 says 
  12709. "Fatal Error: " and hangs.  The code in machCode.c and machAsm.s should be
  12710. changed not to depend on MachSignalStack being double-word size.
  12711.  
  12712.  
  12713. In sig.h, Sig_Stack was changed from: 
  12714.  
  12715. /*
  12716.  * Structure that user sees on stack when a signal is taken.
  12717.  */
  12718. typedef struct {
  12719.     int        sigNum;        /* The number of this signal. */
  12720.     int        sigCode;        /* The code of this signal. */
  12721.     Sig_Context    *contextPtr;    /* Pointer to structure used to restore the
  12722.                  * state before the signal. */
  12723. } Sig_Stack;
  12724.  
  12725.  
  12726. to
  12727.  
  12728. /*
  12729.  * Structure that user sees on stack when a signal is taken.
  12730.  */
  12731. typedef struct {
  12732.     int        sigNum;        /* The number of this signal. */
  12733.     int        sigCode;        /* The code of this signal. */
  12734.     Sig_Context    *contextPtr;    /* Pointer to structure used to restore the
  12735.                  * state before the signal. */
  12736.     int        sigAddr;
  12737. } Sig_Stack;
  12738.  
  12739.  
  12740. Ken, I believe that the Gods in charge of coding/commenting standards are 
  12741. punishing you.
  12742.  
  12743.  
  12744.  
  12745. 1429.
  12746. Date: Wed, 01 Aug 90 12:08:37 PDT
  12747. From: Fred Douglis <douglis>
  12748. Subject: X0msgs  and disk space
  12749.  
  12750. i believe / was filling because arson's X server was running in an
  12751. infinite loop and printing messages to /usr/adm/X0msgs.  at least,
  12752. when i tried to use arson a few minutes ago, its X system was wedged
  12753. and had lots of recent usage, and it refused to die with ^Z or ^C
  12754. after an F1-k.
  12755.  
  12756.  
  12757.  
  12758.  
  12759. 1430.
  12760. Date: Wed, 01 Aug 90 16:12:18 PDT
  12761. From: Fred Douglis <douglis>
  12762. Subject: ds3100 ipServer not politically correct
  12763.  
  12764. bks just complained that sprite machines are getting redirect msgs
  12765. from csgw very often.  turns out the ds3100 gets a redirect on every
  12766. packet to, say, ginger.  sun4cs are fine.
  12767.  
  12768.  
  12769.  
  12770.  
  12771. 1431.
  12772. Date: Thu, 2 Aug 90 09:09:59 PDT
  12773. From: ouster (John Ousterhout)
  12774. Subject: Mint crash
  12775.  
  12776. Mint was down when I came in this morning (about 8:30) and apparently
  12777. had been down only a few minutes.  The crash was caused by an
  12778. Address Error at 0xe039c02.  The message immediately before that on
  12779. the console log was:
  12780.  
  12781. Fscache_UpdateAttrFromClient 44: 'localtime' <0,1028> short size 813, not 65335
  12782.  
  12783. I don't know whether this had anything to do with the crash or not.
  12784. I rebooted with "new".
  12785.  
  12786.  
  12787.  
  12788. 1432.
  12789. Date: Thu, 2 Aug 90 13:06:12 PDT
  12790. From: ouster (John Ousterhout)
  12791. Subject: 1.070 flakey? (whining)
  12792.  
  12793. Is anyone else experiencing flakiness with the 1.070 kernels?
  12794. Piracy (a DS3100) has crashed twice today already with TLB
  12795. LD miss exceptions, after being up for a week or more before
  12796. that.  In addition, Mercenary (a sun4c) hung mysteriously
  12797. this morning and would not respond to keystrokes, mouse motions,
  12798. or network packets.  I L1-A'ed it and continued it, and it
  12799. mysteriously came back to life again.
  12800.  
  12801.  
  12802.  
  12803.  
  12804. 1433.
  12805. Date: Thu, 2 Aug 90 13:20:58 PDT
  12806. From: shirriff (Ken Shirriff)
  12807. Subject: Re: Mint crash (whining)
  12808.  
  12809. >Mint was down ...  Address Error at 0xe039c02.
  12810. >The message immediately before that on the console log was:
  12811. >Fscache_UpdateAttrFromClient 44: 'localtime' <0,1028> short size 813, not 65335
  12812.  
  12813. I looked at the code, and the address error was in Fsrmt_RpcRead, when the
  12814. code jumps through the lookup table:
  12815. streamOpTable[paramsPtr->fileID.type].clientVerify.
  12816. It apparently got a bad address from the table.  This presumably means that
  12817. the fileID.type was bad.  This isn't directly related to the UpdateAttr
  12818. message (I believe), but I think we can conclude that mustard was
  12819. responsible for both problems.  I think this same crash occurred on the 24th
  12820. when we were having all the problems with mustard before (Mary, do you
  12821. have it written down?).
  12822.  
  12823. Conclusions:
  12824. 1.  Mustard is apparently sending packets with 3 types of errors:
  12825.     a) bad flags ... kills mint with exec count = -1
  12826.     b) bad attributes ... causes Fscache_UpdateAttrFromClient warning
  12827.     c) bad file type ... kills mint with Address Error
  12828.  
  12829. 2.  These errors occur in different positions in the packet.  (I was hoping
  12830.     it would be the same bit wrong in each case, but no such luck.)
  12831.  
  12832. 3.  Either there's some obscure software bug causing these three types of
  12833.     errors, only on mustard, or there's a hardware bug causing bad packets
  12834.     to go out.  My bet is that mustard has a flaky network interface.
  12835.  
  12836.  
  12837.  
  12838.  
  12839. 1434.
  12840. Date: Thu, 2 Aug 90 14:16:05 PDT
  12841. From: ouster (John Ousterhout)
  12842. Subject: Piracy dead again (whining)
  12843.  
  12844. Piracy has dropped into the debugger once again, with the message
  12845. "TLB LD miss exception at PC 0x800b99c8".  Although I wouldn't swear
  12846. to it, I think this is the same error it got in the two previous
  12847. crashes today.  I've left Piracy in the debugger in the hopes that
  12848. a DS3100 guru would be willing to take a look at it.
  12849.  
  12850.  
  12851.  
  12852.  
  12853. 1435.
  12854. Date: Thu, 2 Aug 90 14:17:48 PDT
  12855. From: shirriff (Ken Shirriff)
  12856. Subject: printf is full of bugs (whining)
  12857.  
  12858. There are loads of bugs in printf.  Where did it come from and can we get
  12859. a new version from there?  Or should I try to fix it, or should I copy
  12860. a version from monet?
  12861.  
  12862. The original bug I found was that the ' ' flag isn't implemented.  In tracking
  12863. that down, I discovered other problems such as the conversions 'i' and 'p'
  12864. are missing, 'X' isn't handled properly, and many combinations of flags
  12865. don't work right.
  12866.  
  12867.  
  12868.  
  12869.  
  12870. 1436.
  12871. Date: Thu, 2 Aug 90 14:23:51 PDT
  12872. From: ouster (John Ousterhout)
  12873. Subject: Re: printf is full of bugs (whining)
  12874.  
  12875. I'm afraid I'm responsible for printf, which means that a new
  12876. version isn't likely to be forthcoming.  I don't believe that
  12877. you'll be able to copy a version from monet:  the last time I
  12878. checked the BSD versions were all in assembler code;  in any
  12879. case they might not mesh with the rest of our stdio library.
  12880.  
  12881. I wrote printf from the BSD man page, and I thought I got everything
  12882. on the manual page but perhaps I missed something.  For example,
  12883. I don't see "i" and "p" options in my manual page;  could these
  12884. be later POSIX additions?  Of course, it would be nice to have all
  12885. that stuff in the Sprite printf.
  12886.  
  12887.  
  12888.  
  12889.  
  12890. 1437.
  12891. Date: Thu, 02 Aug 90 15:51:36 PDT
  12892. From: Fred Douglis <douglis>
  12893. Subject: Re: Piracy dead again
  12894.  
  12895. piracy died at a point where it shouldn't have (as usual):
  12896.  
  12897. Segmentation fault [.block534:676 +0x4,0x800b99c8]
  12898.     sched_Instrument.processor[cpu].idleTicksLow++;
  12899. main: 108  Main_InitVars();
  12900. (kdbx) run
  12901.  
  12902. Segmentation fault [.block534:676 +0x4,0x800b99c8]
  12903.     sched_Instrument.processor[cpu].idleTicksLow++;
  12904.  
  12905. cpu was 0, sched_Instrument was fine, etc.  
  12906.  
  12907.  
  12908.  
  12909.  
  12910. 1438.
  12911. Date: Thu, 2 Aug 90 18:12:00 PDT
  12912. From: mendel (Mendel Rosenblum)
  12913. Subject: migration considered harmful
  12914.  
  12915. I evicted a process from jaywalk back to treason and it got a seg fault
  12916. on treason.   The process was /sprite/src/lib/gcc/sun4.md/as.sun3.
  12917. It looks like the global registers got overwritten with the string:
  12918. "vmMach.h" 1\n \n\n\n".   
  12919.  
  12920.  
  12921.  
  12922.  
  12923. 1439.
  12924. Date: Thu, 2 Aug 90 18:14:30 PDT
  12925. From: mgbaker (Mary Gray Baker)
  12926. Subject: joyride crash (whining)
  12927.  
  12928. Joyride crashed with the familiar problem of trying to schedule a call-back
  12929. element that is still on the list (so it's pointers are NIL and are traversed
  12930. while trying to insert it again).  The element is the call-back for the
  12931. RpcDaemonWakeup.  I don't see why it happened.
  12932.  
  12933.  
  12934.  
  12935.  
  12936. 1440.
  12937. Date: Thu, 2 Aug 90 18:46:41 PDT
  12938. From: mendel (Mendel Rosenblum)
  12939. Subject: Migration considered harmful for global registers
  12940.  
  12941. Sun4c's do not transfer the global registers, registers %g0 thru %g7, correctly
  12942. during migration.  The program in ~mendel/gtrash demos this.  Fortunately, 
  12943. the compilers we uses aren't smart enough to use the global registers for
  12944. anything but very short-term temporary values.  
  12945.  
  12946.  
  12947.  
  12948.  
  12949. 1441.
  12950. Date: Fri, 3 Aug 90 10:32:48 PDT
  12951. From: mendel (Mendel Rosenblum)
  12952. Subject: rdate during booting doesn't work
  12953.  
  12954. The (new?) /boot/bootcmds does a (rdate %timeServer &) well before it
  12955. starts the ipServer. This doesn't always work because the connect() system
  12956. call in rdate gets an error if the ipServer has not setup the tcp pdev.
  12957.  
  12958.  
  12959.  
  12960.  
  12961. 1442.
  12962. Date: Fri, 3 Aug 90 10:42:29 PDT
  12963. From: mendel (Mendel Rosenblum)
  12964. Subject: sun4c file cache limit was removed
  12965.  
  12966. Before last night, sun4c's such as jaywalk executed a fscmd during
  12967. boot that limited the size of the file cache. Without this limit,
  12968. the file cache will grow until the machine explodes.  Does anybody
  12969. (Mary?) remember where and what the command to limit this was?
  12970. Until this is added back, the sun4c's with more than 16 Megabytes
  12971. of memory will be at risk.   
  12972.  
  12973.  
  12974.  
  12975.  
  12976. 1443.
  12977. Date: Tue, 07 Aug 90 12:08:53 PDT
  12978. From: Mike Kupfer <kupfer>
  12979. Subject: sage crash
  12980.  
  12981. Sage died last night, apparently around 0030 (12:30 am).  There was a
  12982. complaint about a kernel page fault at pc 0xf609fe44, addr=0xf8303ae4.
  12983. Ken helped me look at it.  We weren't able to debug it; sage didn't
  12984. respond to the net or the keyboard.  There were some console messages
  12985. partially scribbled over the X desktop.  Ken said they were a sign of
  12986. a full disk.
  12987.  
  12988.  
  12989.  
  12990.  
  12991. 1444.
  12992. Date: Wed, 8 Aug 90 11:14:37 PDT
  12993. From: mendel (Mendel Rosenblum)
  12994. Subject: newly installed sun4 loader is broken
  12995.  
  12996. The sun4 loader /sprite/cmds.sun4/ld that was installed Fri (Aug6) doesn't 
  12997. work.  It incorrectly relocates routines when invoked with the "-r" option
  12998. as done by our kernel builds.   I copied the old object file from 
  12999. /sprite/cmds.sun4.old/ld and it appears to work.   Any linking done on sun4
  13000. between Friday and now should be redone.  Please test important software 
  13001. before installing it!!!!!!! (bitching)
  13002.  
  13003.  
  13004.  
  13005.  
  13006. 1445.
  13007. Date: Wed, 08 Aug 90 11:29:23 PDT
  13008. From: Fred Douglis <douglis>
  13009. Subject: bug fix: memory leak found
  13010.  
  13011. the change i made many weeks ago to fix scavenging of pipe handles had
  13012. an unintended side effect.  i was inadvertently passing an extra
  13013. argument in the middle of an argument list, so things were shifted and
  13014. pipes were never getting released.  
  13015.  
  13016. lint would have told me about this, which confuses me since i thought
  13017. i ran lint in my copy of fsio before installing my stuff.  but lint
  13018. hadn't been run in fsio itself since last fall.  lint gets harder and
  13019. harder to run as more unimportant messages are generated; it's been a
  13020. long time since we went on a de-linting campaign, but perhaps it's
  13021. due. (not that i exactly want to rush out and do this, of course :)
  13022.  
  13023. i've made the fix but it hasn't been installed yet.  we need to figure
  13024. out when to push out a new kernel with this fix and with mary's
  13025. /dev/fb changes. 
  13026.  
  13027.  
  13028.  
  13029.  
  13030. 1446.
  13031. Date: Wed, 08 Aug 90 11:50:15 PDT
  13032. From: Fred Douglis <douglis>
  13033. Subject: tftpd vanishing
  13034.  
  13035. allspice's tftpd has disappeared into thin air twice in the past two
  13036. days, preventing clients from booting.
  13037.  
  13038.  
  13039.  
  13040.  
  13041. 1447.
  13042. Date: Wed, 8 Aug 90 13:49:24 PDT
  13043. From: shirriff (Ken Shirriff)
  13044. Subject: ds3100 rpc hung to allspice
  13045.  
  13046. When I boot my ds3100 with ds3100 or new it hangs in the boot with:
  13047. Importing "/" from host #14
  13048. <open> RPC timed-out
  13049. open of "/" waiting for recovery
  13050. But allspice is fine, so I don't see why it's hanging.  Is there some
  13051. daemon I should restart?
  13052.  
  13053.  
  13054.  
  13055.  
  13056. 1448.
  13057. Date: Wed, 08 Aug 90 15:23:35 PDT
  13058. From: Mike Kupfer <kupfer>
  13059. Subject: malloc dies when should return null ptr
  13060.  
  13061. If there is insufficient memory for malloc to satisfy a request, it
  13062. should return a null pointer.  Instead it prints an error message and
  13063. dies (see MemChunkAlloc).
  13064.  
  13065.  
  13066.  
  13067.  
  13068.  
  13069. 1449.
  13070. Date: Wed, 8 Aug 90 15:26:59 PDT
  13071. From: ouster (John Ousterhout)
  13072. Subject: Re: malloc dies when should return null ptr
  13073.  
  13074. This arguably a bug, since it doesn't do what the official UNIX
  13075. man page says, but it's intentional:  the motivation is that there
  13076. is unlikely to be anything you can do when you run out of memory
  13077. (particularly in a VM system where there's a lot of memory);
  13078. rather than returning NULL and forcing a zillion malloc callers
  13079. to panic individually, Sprite just panic's automatically.
  13080.  
  13081.  
  13082.  
  13083.  
  13084. 1450.
  13085. Date: Thu, 9 Aug 90 10:38:05 PDT
  13086. From: mendel (Mendel Rosenblum)
  13087. Subject: Memory leak from net module
  13088.  
  13089. The Net_InstallRoute system call leaks memory badly. Each time it is called 
  13090. it appears to lose 32 to 70 bytes.  This was acceptable when it was called once
  13091. for each host at boot time.  Now that netroute is running once an hour
  13092. from cron, Net_InstallRoute get calls for each sprite hosts.  With 72 
  13093. hosts this adds up to around 2.4 kilobyte/hour.  That is 57.6 kilobytes per
  13094. day and 403.2 per week. If a sprite machine stayed up a year....
  13095.  
  13096. John H, is this fixed in your rewrite of the net module?
  13097.  
  13098.  
  13099.  
  13100.  
  13101. 1451.
  13102. Date: Thu, 09 Aug 90 14:12:08 PDT
  13103. From: Mike Kupfer <kupfer>
  13104. Subject: Re: malloc dies when should return null ptr 
  13105.  
  13106. Well, either the code or the (Sprite) man page should be fixed.
  13107.  
  13108. I would prefer that the code be fixed.  I would be happy if we used
  13109. the scheme Fred mentioned, where programs that want a completely
  13110. UNIX-compatible interface can get it.  Do we already have such a
  13111. library?
  13112.  
  13113. Perhaps there should be a separate "incompatibilities" section in man
  13114. pages for UNIX routines?
  13115.  
  13116.  
  13117.  
  13118.  
  13119. 1452.
  13120. Date: Fri, 10 Aug 90 10:45:21 PDT
  13121. From: tve (Thorsten von Eicken)
  13122. Subject: can't boot sun3/60
  13123.  
  13124. I tried "b le(0,961b,43)sun3.new" as in jhh's mail, but it dies with
  13125. an address error in PC fecth at b40ea (just after printing "SpriteBoot: ...".
  13126. Same with trying "b le(...)sun3".
  13127.  
  13128.  
  13129.  
  13130.  
  13131. 1453.
  13132. Date: Fri, 10 Aug 90 12:12:25 PDT
  13133. From: Fred Douglis <douglis>
  13134. Subject: permissions for symm.md; mkmf bug
  13135.  
  13136. there are symm.md directories strewn throughout the source tree,
  13137. without group write permission for sprite, owned by fubar.  this
  13138. causes mkmf to fail.  however, it doesn't abort with an error, it
  13139. prints:  "mkmf.tmp.sed: permission denied" and continues to run pmake.
  13140.  
  13141.  
  13142.  
  13143.  
  13144.  
  13145. 1454.
  13146. Date: Sat, 11 Aug 90 12:38:27 PDT
  13147. From: shirriff (Ken Shirriff)
  13148. Subject: Mail file trashed
  13149.  
  13150. Between 12:11 and 12:34, my mail file got messed up.  I got 1601 bytes
  13151. of nulls on the end.  This is the problem I encountered when the
  13152. sending machine crashed before the data got flushed to the server.  I
  13153. had hoped that the fflush's would fix this, but apparently not.
  13154.  
  13155. On the good side of things, my modifications to mail warned me that
  13156. this happened, instead of silently mashing messages together as
  13157. mail used to.
  13158.  
  13159.  
  13160.  
  13161.  
  13162. 1455.
  13163. Date: Sat, 11 Aug 90 17:38:26 PDT
  13164. From: shirriff (Ken Shirriff)
  13165. Subject: Strong evidence of mustard trashing packets
  13166.  
  13167. >From my close trace information on mustard when it crashed allspice I got:
  13168.  
  13169. /sprite/cmds/sed   flags 1005 (FS_READ|FS_EXECUTE)
  13170. /etc/zoneinfo/localtime flags 9001 (FS_READ)
  13171. /sprite/admin/migd/pdev flags 9003 (FS_READ|FS_WRITE)
  13172.  
  13173. Allspice complained about a bad close on localtime from mustard, which can
  13174. only happen if FS_EXECUTE is set.
  13175.  
  13176. Unfortunately I couldn't find out the entire packet that allspice received,
  13177. but it's clear that the flags mustard was sending didn't have FS_EXECUTE
  13178. set, but the flags allspice received did have FS_EXECUTE set.  This shows
  13179. the problem isn't a filesystem bug, but is a problem somewhere between
  13180. the rpc on mustard and the rpc on allspice.
  13181.  
  13182. I've been running a packet echo program on mustard for about a week, but
  13183. it's failed to catch any bad packets.
  13184.  
  13185.  
  13186.  
  13187.  
  13188. 1456.
  13189. Date: Sun, 12 Aug 90 13:08:16 PDT
  13190. From: mendel (Mendel Rosenblum)
  13191. Subject: Re: Mail file trashed
  13192.  
  13193. My mail also got 1601 bytes of nulls, but not at the very end. I 
  13194. got a couple more messages after the nulls.
  13195.  
  13196.  
  13197.  
  13198.  
  13199. 1457.
  13200. Date: Sun, 12 Aug 90 13:16:14 PDT
  13201. From: Fred Douglis <douglis>
  13202. Subject: tx and vi on sunos 4.1 don't mix
  13203.  
  13204. rlogin to ginger from sprite using tx, and you can't run vi in visual
  13205. mode.  it apparently refuses to pay attention to the %TERMCAP.  can we
  13206. get a version of vi that will?
  13207.  
  13208.  
  13209.  
  13210.  
  13211. 1458.
  13212. Date: Sun, 12 Aug 90 17:28:47 PDT
  13213. From: shirriff (Ken Shirriff)
  13214. Subject: csh problem (whining)
  13215.  
  13216. Sometimes when I enter a command before the previous one is done, I get
  13217. a directory listing for no apparent reason.  Does this happen to anyone
  13218. else?
  13219.  
  13220.  
  13221.  
  13222.  
  13223. 1459.
  13224. Date: Sun, 12 Aug 90 17:41:49 PDT
  13225. From: shirriff (Ken Shirriff)
  13226. Subject: Re: tx and vi on sunos 4.1 don't mix
  13227.  
  13228. You can use the tx vt100 emulation mode to do editing on ginger until
  13229. ginger's vi is fixed to use %TERMCAP.  (Ginger's vi uses different vt100
  13230. escapes from other machines, for no apparent reason, and I didn't emulate
  13231. them all before.  I've installed a new tx that should happily emulate the
  13232. vt100 commands ginger uses.  Let me know if there are any problems.)
  13233.  
  13234.  
  13235.  
  13236.  
  13237. 1460.
  13238. Date: Mon, 13 Aug 90 09:06:37 PDT
  13239. From: ouster (John Ousterhout)
  13240. Subject: Allspice crash
  13241.  
  13242. When I came in this morning Allspice was down with a Level 15 Interrupt.
  13243.  
  13244.  
  13245.  
  13246.  
  13247.  
  13248. 1461.
  13249. Date: Mon, 13 Aug 90 09:13:26 PDT
  13250. From: bmiller (Bob Miller)
  13251. Subject: 'adduser'
  13252.  
  13253. 'adduser' is not working for me anymore.  reponds with...
  13254.  
  13255. "Could't fetch entry from cad
  13256. Make sure your machine is listed in /.rhosts"
  13257.  
  13258. my machine, subversion, is in /.rhosts
  13259.  
  13260.  
  13261.  
  13262.  
  13263. 1462.
  13264. Date: Mon, 13 Aug 90 10:27:13 PDT
  13265. From: rab (Robert A. Bruce)
  13266. Subject: Re: 'adduser' 
  13267.  
  13268. Mint is the only sprite machine that is authorized to
  13269. access the uid database on cad.  All other machines try
  13270. to redirect their accesses via mint.  Since mint is turned
  13271. off, `adduser' doesn't work.  I will ask Brian to set
  13272. everything up so allspice can access the database instead
  13273. of mint.
  13274.  
  13275.  
  13276.  
  13277. 1463.
  13278. Date: Mon, 13 Aug 90 17:58:29 PDT
  13279. From: Mike Kupfer <kupfer>
  13280. Subject: "tar t" lists contents on stderr
  13281.  
  13282. "tar tf mumble.tar | wc" displays the table of contents, followed by
  13283. three 0's.  "tar tf mumble.tar |& wc" just gives the wc counts.
  13284.  
  13285. Workaround: use tar.gnu, or live with it (if you're sure there won't
  13286. be any errors).
  13287.  
  13288.  
  13289.  
  13290.  
  13291. 1464.
  13292. Date: Tue, 14 Aug 90 14:25:53 PDT
  13293. From: mgbaker (Mary Gray Baker)
  13294. Subject: vt100 mode in tx
  13295.  
  13296. I tried going into vt100 mode in tx, but vi still said it couldn't find the
  13297. termcap.  I tried it again and I got the following message:
  13298.  
  13299. Mx_ReplaceBytes: bad range:
  13300. first = (0,0), last = (24,0), num = 1
  13301.  
  13302. Also, in my syslog, I got this message:
  13303.  
  13304. MachPageFault: Bus error in user proc 13524, PC = 4facc, addr = 0 BR Reg 80
  13305.  
  13306. The window was dead.
  13307.  
  13308.  
  13309.  
  13310.  
  13311. 1465.
  13312. Date: Tue, 14 Aug 90 15:41:17 PDT
  13313. From: culler (David Culler)
  13314. Subject: x windows locking up
  13315.  
  13316. X-windows locked up on cardamom until I removed
  13317. xrdb from my .xinitrc
  13318.  
  13319.  
  13320.  
  13321.  
  13322. 1466.
  13323. Date: Tue, 14 Aug 90 15:56:26 PDT
  13324. From: Fred Douglis <douglis>
  13325. Subject: migd race condition hit ds3100
  13326.  
  13327. looks like the same race condition that hit allspice & anise as a
  13328. cache writeback error may also have hit a ds3100.  piquante died with
  13329. migd running, on a tlb fault for a segment with no swap file.
  13330.  
  13331.  
  13332.  
  13333.  
  13334. 1467.
  13335. Date: Wed, 15 Aug 90 09:06:23 PDT
  13336. From: ouster (John Ousterhout)
  13337. Subject: TCP problem on Sprite?
  13338.  
  13339. >From karels@okeeffe.Berkeley.EDU Tue Aug 14 20:43:54 1990
  13340. From: karels@okeeffe.Berkeley.EDU (Mike Karels)
  13341. To: eric@okeeffe.Berkeley.EDU, ouster@sprite.Berkeley.EDU
  13342. Cc: sklower@okeeffe.Berkeley.EDU, van@okeeffe.Berkeley.EDU
  13343. Subject: network problems between mammoth and paprika
  13344. Date: Tue, 14 Aug 90 20:34:18 PDT
  13345.  
  13346. This morning I noticed that network performance was again quite bad
  13347. on our local nets, mostly due to overload on our gateway.  As in the
  13348. last few times I've noticed this, I found mammoth in a shouting match
  13349. with another system, sending tiny TCP packets as fast as it could.
  13350. This time the destination was not a PC/RT as usual, but was a Sprite
  13351. system, paprika.  As far as I can tell, this problem occurs only when
  13352. there is a problem in the TCPs on both ends, although this may not be
  13353. true for the client end (mammoth in this case; the X library requests
  13354. that TCP not aggregate small packets).
  13355.  
  13356. The problem in each case is that emacs was running on mammoth,
  13357. using a window on an X server on the other machine.  The window
  13358. is closed ungracefully.  On a PC/RT running AIX, the usual culprit
  13359. is xdestroy (bound to a Cancel button).  In Sprite's case, the problem
  13360. appears to be a crash.  The user "schauser" uses lisp on mammoth,
  13361. which he runs in an emacs window under X on Sprite; I don't know if
  13362. this is on paprika or one of its client machines.  He said that his
  13363. workstation crashes, then emacs on mammoth runs away.  This has
  13364. apparently happened several times, and after debugging a previous
  13365. episode, Keith Sklower asked shauser to find the emacs and kill it
  13366. after crashes.  This didn't happen this morning, perhaps because
  13367. he wasn't aware of a crash.  After an hour or so of network lossage,
  13368. I started debugging, and with Keith I found the same problem happening.
  13369. Mammoth was sending 4-byte TCP segments to paprika as fast as it could,
  13370. and paprika was periodically acknowledging them and moving the window forward.
  13371. (Our 500-packet sample took less than a second to accumulate.)
  13372. If the machine running the X display had crashed, however, the TCP connection
  13373. should have been killed, and paprika should have reset the connection.
  13374. On the other hand, if the connection was still alive on paprika
  13375. but data couldn't be delivered to the X server (on another machine?),
  13376. the TCP window should have gone closed.  In any case, the data isn't
  13377. really going anywhere, and the situation doesn't resolve itself
  13378. without manual intervention.
  13379.  
  13380. My trace begins with 228 4-byte segments from mammoth, followed
  13381. by an ack from 4092 bytes back from paprika, then alternating 4-byte
  13382. segments from mammoth and 4 bytes worth of ack from paprika.
  13383. This is serious brain-damage in all ways: the connection shouldn't
  13384. be alive, mammoth shouldn't send 4 bytes at a time with outstanding
  13385. data, and paprika shouldn't acknowledge 4 bytes at a time with
  13386. a data stream like this.  The algorithms required to fix this
  13387. are not only documented, but they are now required in a conforming
  13388. TCP implementation.
  13389.  
  13390. Although both ends are misbehaving here, fixing either end would have
  13391. solved today's problem.  This problem has been happening fairly often
  13392. over some period of months (although I've only been aware of Sprite's
  13393. involvement since this morning).  The network is a shared resource
  13394. that needs to be protected from such misbehavior.  I'd like to see
  13395. that both ends get fixed.
  13396.  
  13397. Eric, I think that either someone must fix emacs (or the X library)
  13398. on mammoth, or that emacs must be removed from mammoth.  I don't know
  13399. if this problem is specific to mammoth, but only mammoth has caused
  13400. problems of this sort, and for multiple users using different X servers
  13401. and host operating systems.  I talked to Craig about this briefly;
  13402. I think he would be willing to take this on.
  13403.  
  13404. John, is someone currently maintaining TCP for Sprite who can fix
  13405. this?  I'm willing to explain the problem as needed.
  13406.  
  13407.  
  13408.  
  13409.  
  13410. 1468.
  13411. Date: Wed, 15 Aug 90 11:03:37 PDT
  13412. From: Fred Douglis <douglis>
  13413. Subject: portmap in loop
  13414.  
  13415. portmap was pegging allspice's cpu again.  i tried to debug it but it
  13416. was in the sunrpc library and didn't have debugging info.  i installed
  13417. a new portmap, linked with libsunrpc_g.a, and started it on allspice.
  13418. next time it goes haywire it would be good to debug it for real.
  13419.  
  13420.  
  13421.  
  13422.  
  13423. 1469.
  13424. Date: Wed, 15 Aug 90 12:00:53 PDT
  13425. From: Fred Douglis <douglis>
  13426. Subject: bootp stale handle
  13427.  
  13428. ds3100s were unable to boot for a while because allspice's bootp was
  13429. printing "recvfrom failed: stale remote file handle".  does bootp use
  13430. portmap?  perhaps bootp needs to recontact portmap if portmap is
  13431. reinstantiated.  
  13432.  
  13433.  
  13434.  
  13435.  
  13436. 1470.
  13437. Date: Wed, 15 Aug 90 16:31:05 PDT
  13438. From: rab (Robert A. Bruce)
  13439. Subject: writable kernel sources
  13440.  
  13441. A lot of the kernel sources have write permissions set, even
  13442. though they are not checked out.  The dev module is especially bad.
  13443. Most of the source files in dev have permissions set to 0666.
  13444.  
  13445.  
  13446.  
  13447.  
  13448. 1471.
  13449. Date: Wed, 15 Aug 90 18:24:42 PDT
  13450. From: mendel@rosemary.Berkeley.EDU (Mendel Rosenblum)
  13451. Subject: allspice crashed
  13452.  
  13453. Allspice hung up with an idle Proc_ServerProc having a lock on a file
  13454. in /tmp.    The file was being deleted and the delete was hung trying
  13455. to reaquire the lock after the consist callbacks.
  13456.  
  13457.  
  13458.  
  13459.  
  13460. 1472.
  13461. Date: Wed, 15 Aug 90 18:26:46 PDT
  13462. From: mendel@rosemary.Berkeley.EDU (Mendel Rosenblum)
  13463. Subject: booting allspice from ginger doesn't work.
  13464.  
  13465. Allspice doesn't boot off ginger. It hangs trying to broadcast for its
  13466. inet address using rarp.  Sounds like ginger needs to be configured to 
  13467. anwser RARP requests for allspice.
  13468.  
  13469.  
  13470.  
  13471.  
  13472. 1473.
  13473. Date: Wed, 15 Aug 90 23:42:46 PDT
  13474. From: Fred Douglis <douglis>
  13475. Subject: allspice hung again
  13476.  
  13477. same as mendel's message before, as well as many, many deadlocks in
  13478. the past.  /tmp was locked by a process doing a consistency callback.
  13479. the callback unlocks the hdr for the file (ctm-something-or-other) and
  13480. grabs the monitor.  it used to be that it would try relocking the file
  13481. under the monitor.  now it releases the monitor and relocks the file.
  13482. this doesn't help, though, because ctm has been locked by a
  13483. Proc_ServerProc and the process that has locked tmp blocks
  13484. indefinitely.  
  13485.  
  13486. when i rebooted allspice, it took a "longer time than usual" to
  13487. reboot.  no indication of recovery after 25 minutes.  i finally got
  13488. worried and went back upstairs, and i found a message about no rpc
  13489. servers, lots of processes in the ready state, and nothing apparently
  13490. going on.  i impulsively aborted and rebooted, thinking that it was
  13491. the same problem i'd just spent a long time debugging, and this time
  13492. i'd watch to see what was happening.  wrong-o.  it hit several "level
  13493. 15 interrupts" and had to be powered off and on.  in the meantime i
  13494. realized it had actually started recovering while i was en route
  13495. upstairs.  oops.  
  13496.  
  13497.  
  13498.  
  13499.  
  13500. 1474.
  13501. Date: Thu, 16 Aug 90 02:50:19 PDT
  13502. From: rab (Robert A. Bruce)
  13503. Subject: lots of lint warnings (whining)
  13504.  
  13505. There were a lot of lint warnings while installing the kernel.
  13506. The symm stuff is the worst because it has a lot of politically
  13507. incorrect increment/decrement side effects and missing braces.
  13508. But the other modules are pretty bad too.
  13509.  
  13510.  
  13511.  
  13512.  
  13513. 1475.
  13514. Date: Thu, 16 Aug 90 11:38:05 PDT
  13515. From: bmiller (Bob Miller)
  13516. Subject: having problems printing
  13517.  
  13518. Our printer, lw533, doesn't seem to want to print today.  Prof. Culler
  13519. sent something to print, but it just sat there in the queue (it showed
  13520. 'active').  SHALLOT, which drives the printer, is working and Terry
  13521. had printed something earlier this morning.  Right now, I've got a couple
  13522. to test print jobs in the queue (one shows 'active'), but nothing is
  13523. happening.  Can you check into this?  Thanks.
  13524.  
  13525.  
  13526.  
  13527.  
  13528. 1476.
  13529. Date: Thu, 16 Aug 90 12:55:23 PDT
  13530. From: rab (Robert A. Bruce)
  13531. Subject: king
  13532.  
  13533. A lot of stuff on king is outdated.  For instance it still
  13534. uses the old /etc/passwd format, which makes it difficult
  13535. keep consistent with Evans.
  13536.  
  13537.  
  13538.  
  13539.  
  13540. 1477.
  13541. Date: Thu, 16 Aug 90 15:48:21 PDT
  13542. From: Fred Douglis <douglis>
  13543. Subject: pipes still left around
  13544.  
  13545. the fix i made did not cause pipes to get scavenged as expected.
  13546. mendel and i had been speculating at one point about ken's change to
  13547. fsPipe.c to deal with locking:
  13548.  
  13549.     rcsdiff -r9.{4,5} fsPipe.c
  13550.     RCS file: RCS/fsPipe.c,v
  13551.     retrieving revision 9.4
  13552.     retrieving revision 9.5
  13553.     diff -r9.4 -r9.5
  13554.     13c13
  13555.     < static char rcsid[] = "%Header: /sprite/src/kernel/fsio/RCS/fsPipe.c,v 9.4 90/06/27 11:16:50 douglis Exp % SPRITE (Berkeley)";
  13556.     ---
  13557.     > static char rcsid[] = "%Header: /sprite/src/kernel/fsio/RCS/fsPipe.c,v 9.5 90/07/15 13:36:32 shirriff Exp % SPRITE (Berkeley)";
  13558.     347c347
  13559.     <         Fsutil_HandleRelease(handlePtr, TRUE);
  13560.     ---
  13561.     >         Fsutil_HandleRelease(handlePtr, FALSE);
  13562.  
  13563. i believe this may be causing the reference not to be removed.  in any
  13564. case, it appears that each time i create a pipe, the number of handles
  13565. in limbo goes up by one.  this wasn't the case a while back.
  13566.  
  13567.  
  13568.  
  13569.  
  13570. 1478.
  13571. Date: Thu, 16 Aug 90 16:16:14 PDT
  13572. From: ouster (John Ousterhout)
  13573. Subject: mach/sun3.md/cvtStat.o
  13574.  
  13575. There is a file "cvtStat.o" in the sun3.md subdirectory of the
  13576. mach kernel module.  I couldn't find the source file for this
  13577. object file.  Does anyone know of a reason why it exists?
  13578.  
  13579.  
  13580.  
  13581.  
  13582. 1479.
  13583. Date: Thu, 16 Aug 90 16:22:53 PDT
  13584. From: Mike Kupfer <kupfer>
  13585. Subject: cruft in X11/cmds
  13586.  
  13587. I made the mistake :-) of rebuilding all the X clients, so that they
  13588. could take advantage of the readv fix.  It looks like folks have been
  13589. adding things to /X11/R4/src/cmds and then installing them in a
  13590. haphazard fashion.
  13591.  
  13592. Problem #1: Unless someone can free up some space in /X11, I don't
  13593. think there's going to be enough room for all the games and whatnot
  13594. that people have pulled off the net and installed.
  13595.  
  13596. Problem #2: Some of the stuff doesn't build, at least on a
  13597. Sparcstation.  Known offenders are xditview, xdm, xcolors, and xpic
  13598. (and I'm not even done rebuilding everything for the sun4; I haven't
  13599. even started on the sun3 or ds3100).
  13600.  
  13601. So, could someone who's more familiar with the contents of X11 than I
  13602. am please see if there are any old files that can be nuked?  If I run
  13603. out of space, can I just start removing games, starting with what's in
  13604. *.md/old?
  13605.  
  13606. Also, what's the policy about stuff that doesn't build.  Do we hide it
  13607. away or leave it in with the stuff that does build?
  13608.  
  13609.  
  13610.  
  13611.  
  13612. 1480.
  13613. Date: Thu, 16 Aug 90 16:24:11 PDT
  13614. From: Fred Douglis <douglis>
  13615. Subject: disappearing dependencies.mk
  13616.  
  13617. i happened to notice that sig didn't get installed in the last kernel
  13618. install, and found out this was partly because sig/dependencies.mk
  13619. didn't exist.  why pmake wouldn't complain about the missing file is
  13620. beyond me -- maybe there's another empty dependencies.mk in pmake's
  13621. path someplace -- but it's worrisome.  i checked around and found out
  13622. that mach/sun4c.md/dependencies.mk also didn't exist.  where are these
  13623. files going?  
  13624.  
  13625. i am going to add a "make dependall" step to the howto file for
  13626. building a new kernel.
  13627.  
  13628.  
  13629.  
  13630.  
  13631. 1481.
  13632. Date: Thu, 16 Aug 90 16:59:54 PDT
  13633. From: Mike Kupfer <kupfer>
  13634. Subject: "update" should be more careful
  13635.  
  13636.  
  13637. It would be nice if "update" were a bit more careful when it installs
  13638. something.  I managed to lose sun4.cmds/xterm briefly because "update"
  13639. deleted or moved the old version, then it found that it didn't have
  13640. enough room to install the new one.
  13641.  
  13642.  
  13643.  
  13644.  
  13645. 1482.
  13646. Date: Fri, 17 Aug 90 22:24:05 PDT
  13647. From: Mike Kupfer <kupfer>
  13648. Subject: migration lost a process 
  13649.  
  13650. I was building X clients on piracy (a ds3100).
  13651.  
  13652. [...]
  13653. --- install ---
  13654. /sprite/cmds.ds3100/update -m 775 -s -b /X11/R4/cmds.ds3100.old  ds3100.md/makelev  /X11/R4/cmds.ds3100/makelev
  13655. Updating: /X11/R4/cmds.ds3100/makelev
  13656. Error in Proc_Migrate: the process ID is not in the proper range or the process doesn't exist
  13657. make: 1 error
  13658. *** Error code 2
  13659. make: 1 error
  13660.  
  13661. (makelev is part of the golddig game.)  Rerunning "make" failed to
  13662. reproduce the problem (what a surprise :-)).
  13663.  
  13664.  
  13665.  
  13666.  
  13667. 1483.
  13668. Date: Sun, 19 Aug 90 16:15:21 PDT
  13669. From: tve (Thorsten von Eicken)
  13670. Subject: portmap going crazy on allspice
  13671.  
  13672. root     20e43 51.1  0.1   152   152 READY1128:41    /sprite/daemons/portmap
  13673.  
  13674. I killed & restarted it. I also had to start a tftpd to be able to boot
  13675. a client.
  13676.  
  13677.  
  13678.  
  13679. 1484.
  13680. Date: Sun, 19 Aug 90 16:48:15 PDT
  13681. From: ouster (John Ousterhout)
  13682. Subject: Fsio_StreamAddClient unlocks without locking
  13683.  
  13684. In converting to the new synchronization code I discovered that
  13685. the procedure Fsio_StreamAddClient executes UNLOCK_MONITOR without
  13686. ever executing LOCK_MONITOR (the new synchronization code panics
  13687. if you free something that's unowned).  Can anyone think of a reason
  13688. why the code should be the way it is?  Does anyone know whether the
  13689. error is a missing LOCK_MONITOR or a superfluous UNLOCK_MONITOR?
  13690. For now I'm adding a LOCK_MONITOR call to my version of the file.
  13691.  
  13692.  
  13693.  
  13694.  
  13695. 1485.
  13696. Date: Sun, 19 Aug 90 18:57:12 PDT
  13697. From: rab (Robert A. Bruce)
  13698. Subject: dumps
  13699.  
  13700. The nightly dumps did not complete over the weekend
  13701. because of write errors on the tape drive.  If you
  13702. have any critical files, you should make redundant
  13703. copies to avoid losing them.
  13704.  
  13705. I will send mail as soon as the problem is fixed and
  13706. the dumps are up to date.
  13707.  
  13708.  
  13709.  
  13710.  
  13711.  
  13712. 1471.
  13713. Date: Wed, 15 Aug 90 18:24:42 PDT
  13714. From: mendel@rosemary.Berkeley.EDU (Mendel Rosenblum)
  13715. Subject: allspice crashed
  13716.  
  13717. Allspice hung up with an idle Proc_ServerProc having a lock on a file
  13718. in /tmp.    The file was being deleted and the delete was hung trying
  13719. to reaquire the lock after the consist callbacks.
  13720.  
  13721.  
  13722.  
  13723.  
  13724. 1473.
  13725. Date: Wed, 15 Aug 90 23:42:46 PDT
  13726. From: Fred Douglis <douglis>
  13727. Subject: allspice hung again
  13728.  
  13729. same as mendel's message before, as well as many, many deadlocks in
  13730. the past.  /tmp was locked by a process doing a consistency callback.
  13731. the callback unlocks the hdr for the file (ctm-something-or-other) and
  13732. grabs the monitor.  it used to be that it would try relocking the file
  13733. under the monitor.  now it releases the monitor and relocks the file.
  13734. this doesn't help, though, because ctm has been locked by a
  13735. Proc_ServerProc and the process that has locked tmp blocks
  13736. indefinitely.  
  13737.  
  13738. when i rebooted allspice, it took a "longer time than usual" to
  13739. reboot.  no indication of recovery after 25 minutes.  i finally got
  13740. worried and went back upstairs, and i found a message about no rpc
  13741. servers, lots of processes in the ready state, and nothing apparently
  13742. going on.  i impulsively aborted and rebooted, thinking that it was
  13743. the same problem i'd just spent a long time debugging, and this time
  13744. i'd watch to see what was happening.  wrong-o.  it hit several "level
  13745. 15 interrupts" and had to be powered off and on.  in the meantime i
  13746. realized it had actually started recovering while i was en route
  13747. upstairs.  oops.  
  13748.  
  13749.  
  13750.  
  13751.  
  13752. 1474.
  13753. Date: Thu, 16 Aug 90 02:50:19 PDT
  13754. From: rab (Robert A. Bruce)
  13755. Subject: lots of lint warnings (whining)
  13756.  
  13757. There were a lot of lint warnings while installing the kernel.
  13758. The symm stuff is the worst because it has a lot of politically
  13759. incorrect increment/decrement side effects and missing braces.
  13760. But the other modules are pretty bad too.
  13761.  
  13762.  
  13763.  
  13764. 1476.
  13765. Date: Thu, 16 Aug 90 12:55:23 PDT
  13766. From: rab (Robert A. Bruce)
  13767. Subject: king
  13768.  
  13769. A lot of stuff on king is outdated.  For instance it still
  13770. uses the old /etc/passwd format, which makes it difficult
  13771. keep consistent with Evans.
  13772.  
  13773.  
  13774.  
  13775.  
  13776. 1477.
  13777. Date: Thu, 16 Aug 90 15:48:21 PDT
  13778. From: Fred Douglis <douglis>
  13779. Subject: pipes still left around
  13780.  
  13781. the fix i made did not cause pipes to get scavenged as expected.
  13782. mendel and i had been speculating at one point about ken's change to
  13783. fsPipe.c to deal with locking:
  13784.  
  13785.     rcsdiff -r9.{4,5} fsPipe.c
  13786.     RCS file: RCS/fsPipe.c,v
  13787.     retrieving revision 9.4
  13788.     retrieving revision 9.5
  13789.     diff -r9.4 -r9.5
  13790.     13c13
  13791.     < static char rcsid[] = "%Header: /sprite/src/kernel/fsio/RCS/fsPipe.c,v 9.4 90/06/27 11:16:50 douglis Exp % SPRITE (Berkeley)";
  13792.     ---
  13793.     > static char rcsid[] = "%Header: /sprite/src/kernel/fsio/RCS/fsPipe.c,v 9.5 90/07/15 13:36:32 shirriff Exp % SPRITE (Berkeley)";
  13794.     347c347
  13795.     <         Fsutil_HandleRelease(handlePtr, TRUE);
  13796.     ---
  13797.     >         Fsutil_HandleRelease(handlePtr, FALSE);
  13798.  
  13799. i believe this may be causing the reference not to be removed.  in any
  13800. case, it appears that each time i create a pipe, the number of handles
  13801. in limbo goes up by one.  this wasn't the case a while back.
  13802.  
  13803.  
  13804.  
  13805.  
  13806. 1486.
  13807. Date: Mon, 20 Aug 90 15:25:39 PDT
  13808. From: culler (David Culler)
  13809. Subject: For your records
  13810.  
  13811. My DS3100 crashed with the following:
  13812.  
  13813. fatal error VmPageServerRead: trying to read from non-existent swap file.
  13814. version 1.070 (ds3100) (Aug 1 1990 13:18:21) PC0x800c256c.
  13815.  
  13816.  
  13817.  
  13818.  
  13819. 1487.
  13820. Date: Tue, 21 Aug 90 12:16:41 PDT
  13821. From: pmchen (Peter M. Chen)
  13822. Subject: oregano in pain
  13823.  
  13824. It seems that oregano is in pain with lots of:
  13825. <prefix> 8/21/90 12:15:21 oregano (38) RPC timed-out
  13826. <prefix> 8/21/90 12:15:26 oregano (38) RPC timed-out
  13827. <prefix> 8/21/90 12:15:32 oregano (38) RPC timed-out
  13828. 8/21/90 12:15:32 oregano (38) - recovering handles
  13829. 8/21/90 12:15:32 oregano (38) Recovery complete 8 handles reopened
  13830.  
  13831. messages.  This has been taking place for a while.
  13832.  
  13833.  
  13834.  
  13835.  
  13836. 1488.
  13837. Date: Tue, 21 Aug 90 12:17:01 PDT
  13838. From: shirriff (Ken Shirriff)
  13839. Subject: More mustard problems
  13840.  
  13841. I booted mustard and got a bunch of:
  13842. LE ethernet: Bogus receive interrupt.  Buffer owned by chip.
  13843. LE ethernet: Reinitialized chip.
  13844. Rpc_Dispatch: bad channel 651231233 from clt 44 rpc10Resetting network interface
  13845.  
  13846. It did this a bunch of times and then died.
  13847. a) does this mean the network interface is dead and can be replaced?
  13848. b) can I swap mustard for violence or arson or something to use?
  13849.  
  13850.  
  13851.  
  13852.  
  13853.  
  13854. 1489.
  13855. Date: Tue, 21 Aug 90 12:27:44 PDT
  13856. From: rab (Robert A. Bruce)
  13857. Subject: Re: oregano in pain 
  13858.  
  13859. According to oregano's console, it is timing out and recovering
  13860. with forgery and garlic every 15 seconds or so.
  13861.  
  13862.  
  13863.  
  13864.  
  13865. 1490.
  13866. Date: Tue, 21 Aug 90 14:07:47 PDT
  13867. From: rab (Robert A. Bruce)
  13868. Subject: old sources (whining)
  13869.  
  13870. In our source tree we have many directories that contain old
  13871. sources.  They are usually in directories with the prefix `old',
  13872. such as `as.old', `pmake.old', etc.  When pmake is run in a top level
  13873. directory such as /sprite/src/cmds, it desends into these old
  13874. directories and tries to make them.  This often doesn't work
  13875. because the old stuff isn't maintained and uses out of date header
  13876. files, etc.  This results in lots of distracting error messages
  13877. and makes pmake abort.
  13878.  
  13879. I propose that we either modify mkmf to ignore directories with
  13880. a .old prefix, or even better, keep old sources in a seperate
  13881. heirarchy.
  13882.  
  13883. For instance we could have
  13884.  
  13885. /sprite/src/old/attcmds
  13886. /sprite/src/old/cmds
  13887. /sprite/src/old/kernel
  13888. etc.
  13889.  
  13890.  
  13891.  
  13892.  
  13893. 1491.
  13894. Date: Tue, 21 Aug 90 14:42:55 PDT
  13895. From: shirriff (Ken Shirriff)
  13896. Subject: xwindows, twm, or tx bug (whining)
  13897.  
  13898. When I start up my window system, I don't have a cursor.  Everything I type
  13899. goes in the right window, but the cursor is invisible.  If I move the mouse
  13900. out and back in, the cursor becomes visible.
  13901.  
  13902.  
  13903.  
  13904.  
  13905. 1492.
  13906. Date: Tue, 21 Aug 90 17:18:41 PDT
  13907. From: Fred Douglis <douglis>
  13908. Subject: strange "bad user tlb fault" message on ds3100
  13909.  
  13910. both piquante & kvetching today have printed 
  13911.  
  13912.     Bad user TLB fault in process  : pc=  addr= 
  13913.  
  13914. rather than something like 
  13915.  
  13916.     Bad user TLB fault in process e0251: pc=4001ec addr=0
  13917.  
  13918.  
  13919.  
  13920.  
  13921. 1493.
  13922. Date: Tue, 21 Aug 90 16:12:20 PDT
  13923. From: douglis@ginger.Berkeley.EDU (Fred Douglis)
  13924. Subject: booting from ginger doesn't work
  13925.  
  13926. twice in a row it hit "bus error" exceptions right after starting execution.
  13927. also, the howto file mentions sun4.new instead of sun4.md/new in one place.
  13928.  
  13929.  
  13930.  
  13931.  
  13932. 1494.
  13933. Date: Wed, 22 Aug 1990 11:54:34 PDT
  13934. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  13935. Subject: Re: Memory leak from net module
  13936.  
  13937. The new net module cleans up when a new route is installed.  
  13938.  
  13939.  
  13940.  
  13941.  
  13942. 1495.
  13943. Date: Wed, 22 Aug 90 12:01:37 PDT
  13944. From: bmiller (Bob Miller)
  13945. Subject: print problem
  13946.  
  13947. an 'lpq' on my machine shows 'no space on remote; waiting for queue to drain'.
  13948. SHALLOT (the driver for printer lw533) shows 'no entries'.  Is this a Sprite
  13949. problem?
  13950.  
  13951.  
  13952.  
  13953. 1496.
  13954. Date: Wed, 22 Aug 1990 12:12:15 PDT
  13955. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  13956. Subject: Re: king
  13957.  
  13958. One of the things on my list is to update cory.  Right now they are running
  13959. the 1.059 kernel from Feb 20.  They sure don't make kernels like they
  13960. used to!  The update is likely to be a major one, since they are lacking
  13961. the new passwd, boot sequence and X11R4, among other things.
  13962.  
  13963.  
  13964.  
  13965.  
  13966.  
  13967. 1497.
  13968. Date: Wed, 22 Aug 90 15:01:56 PDT
  13969. From: pmchen (Peter M. Chen)
  13970. Subject: oregano in pain
  13971.  
  13972. I deleted my sole link to /spur2 (which was obsolete anyway), which didn't
  13973. fix anything.  I then rebooted, which fixed things.
  13974.  
  13975.  
  13976.  
  13977.  
  13978. 1498.
  13979. Date: Wed, 22 Aug 90 15:47:55 PDT
  13980. From: ouster (John Ousterhout)
  13981. Subject: Boing goofy for migration?
  13982.  
  13983. It seems that every time I migrate something to boing during a pmake
  13984. the thing never finishes.  I finally migcmd-ed Boing not to import
  13985. anything ever, and now my pmakes are all finishing fast.
  13986.  
  13987.  
  13988.  
  13989.  
  13990. 1499.
  13991. Date: Wed, 22 Aug 90 16:40:38 PDT
  13992. From: ouster (John Ousterhout)
  13993. Subject: Allspice hang
  13994.  
  13995. Allspice hung up this afternoon ("RpcDoCall: <open> RPC to allspice is hung").
  13996. I went upstairs and reset its network interface (Break-N) and it recovered
  13997. OK.
  13998.  
  13999.  
  14000.  
  14001.  
  14002. 1500.
  14003. Date: Wed, 22 Aug 90 19:59:56 PDT
  14004. From: Fred Douglis <douglis>
  14005. Subject: pipe limbo bug fixed
  14006.  
  14007. i think i've fixed the problem with pipes being left in the limbo
  14008. state.  (i wanted to fix it in time to get a clean kernel that won't
  14009. be slowed down scavenging unusable handles :)
  14010.  
  14011. FsPipeGetIOAttr was grabbing the handle but unlocking it rather than
  14012. releasing it.  other GetIOAttr routines do a full release.  
  14013.  
  14014. the real question is why we only recently started noticing lots of
  14015. handles accumulating, considering it seems this bug has been around
  14016. forever.   or have handles in the "limbo" state been accumulating
  14017. steadily all along?
  14018.  
  14019.  
  14020.  
  14021.  
  14022. 1501.
  14023. Date: Wed, 22 Aug 90 22:53:45 PDT
  14024. From: Mike Kupfer <kupfer>
  14025. Subject: allspice temporarily stuck
  14026.  
  14027. Allspice got very very busy.  Break-N seemed to have some effect, but
  14028. it didn't actually fix the problem.  I tried an "rpcstat -srvr", which
  14029. took a very long time to respond.  Shortly after it did respond, the
  14030. logjam cleared, and things went back to normal.  Unfortunately, I
  14031. managed to fill allspice's console before realizing that the problem
  14032. had gone away, so I can't tell you what messages were displayed around
  14033. the time of the rpcstat output.
  14034.  
  14035.  
  14036.  
  14037.  
  14038. 1502.
  14039. Date: Thu, 23 Aug 1990 10:50:49 PDT
  14040. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  14041. Subject: unix compatibility bug(s)
  14042.  
  14043.  
  14044. > From culler Thu Aug 23 09:41:21 1990
  14045. > Received: by sprite.Berkeley.EDU (5.59/1.29)
  14046. >     id AA272184; Thu, 23 Aug 90 09:41:21 PDT
  14047. > Date: Thu, 23 Aug 90 09:41:21 PDT
  14048. > From: culler (David Culler)
  14049. > Message-Id: <9008231641.AA272184@sprite.Berkeley.EDU>
  14050. > To: jhh
  14051. > Subject: Ultrix Compatibility
  14052. > I've been trying to run idraw, compiled for Ultrix.  I get a family of
  14053. > strange behaviors, depending on where I run it from and when.  In some
  14054. > cases it tries to find servers for all of root.  It gets screwed up about
  14055. > the pathname of the file I want to open.  If I get around these two, it
  14056. > blows up with X-errors.  Runs fine on dill.  Runs o.k. for johnw.
  14057. > Perhaps we could talk about it.
  14058.  
  14059.  
  14060.  
  14061.  
  14062. 1503.
  14063. Date: Thu, 23 Aug 90 12:17:16 PDT
  14064. From: rab (Robert A. Bruce)
  14065. Subject: dumps
  14066.  
  14067. The daily dump did not complete last night.  /mic, /tic,
  14068. /sprite/src/kernel and /scratch3 completed, but all other
  14069. filesystems failed.  The last successful dump was Wednesday
  14070. morning.  If you have modified any important files since
  14071. then, you should make redundant copies.
  14072.  
  14073. I will send mail as soon as the dumps are up to date.
  14074.  
  14075.  
  14076.  
  14077.  
  14078. 1504.
  14079. Date: Thu, 23 Aug 90 16:20:17 PDT
  14080. From: Mike Kupfer <kupfer>
  14081. Subject: inadequate instrumentation (whining)
  14082.  
  14083. The recent problems with allspice have demonstrated that our system
  14084. instrumentation tools are incomplete.  "rawstat" has some of what I'm
  14085. looking for, but it has the following problems:
  14086.  
  14087. (1) it doesn't give CPU usage (broken down into user/system/idle) 
  14088.  
  14089. (2) it doesn't list interrupts
  14090.  
  14091. (3) it can't give a running tally (a la "vmstat -t").
  14092.  
  14093.  
  14094.  
  14095.  
  14096. 1505.
  14097. Date: Fri, 24 Aug 90 00:09:21 PDT
  14098. From: douglis (Fred Douglis)
  14099. Subject: tftpd bug patched
  14100.  
  14101. when i tried rebooting machines, i lost many of them because tftpd kept
  14102. disappearing on me.  i finally had to run tftpd with some debugging
  14103. info enabled.  it became apparent that tftpd was hitting an error on
  14104. a recvfrom and exiting.  if it tried to restart by reopening the socket
  14105. to accept requests, it would run into trouble if any of its children were
  14106. still around and using the socket.  so, i put in some patches to have
  14107. it keep track of children and only restart when there are none around.
  14108.  
  14109. this seems inordinately kludgy, and if anyone with an understanding of
  14110. tftpd and/or the socket/bind/... routines wants to fix it, please do!
  14111.  
  14112.  
  14113.  
  14114.  
  14115. 1506.
  14116. Date: Fri, 24 Aug 90 02:35:45 PDT
  14117. From: root (The Sprite God)
  14118. Subject: removing file doesn't help disk space crunch
  14119.  
  14120. a bug in a program to generate a 1MB file caused it to write 65MB and
  14121. fill up /tmp.  killing the process and removing the file didn't
  14122. fix the problem -- instead, somehow a reference was left around and
  14123. i had to reboot to get a reference to the file in lost+found, so i
  14124. could truncate it by hand.
  14125.  
  14126.  
  14127.  
  14128.  
  14129. 1507.
  14130. Date: Fri, 24 Aug 90 04:45:45 PDT
  14131. From: Fred Douglis <douglis>
  14132. Subject: allspice/ginger  (whining, whining, whinnying)
  14133.  
  14134. various troubles tonight that i haven't yet reported:
  14135.  
  14136. - i didn't see anything on allspice's console about where to put a
  14137. kernel to boot off allspice's local disk.  i wrote into / without
  14138. success, then tried /allspiceA, and i found that i could boot
  14139. "sd()new" but not "sd()clean" -- if i moved /allspiceA/clean into
  14140. /allspiceA/new then i could boot my kernel.  this was important since
  14141. ginger was down for dumps and i couldn't boot off ginger.
  14142.  
  14143. - allspice got level 15 interrupts left & right, and i couldn't get at
  14144. a copy of kmsg to continue it until the dumps weren't running and i
  14145. could type at ginger's console.  (i didn't want to bring ginger up to
  14146. full service just in case the dumper had more plans with it).  
  14147.  
  14148. - the bug i reported about printfs in the kernel omitting their
  14149. arguments, and printing spaces instead, came up quite a bit during the
  14150. benchmarking.  it makes things hard to figure out sometimes.  
  14151.  
  14152.  
  14153.  
  14154.  
  14155. 1508.
  14156. Date: Fri, 24 Aug 90 08:58:51 PDT
  14157. From: pmchen (Peter M. Chen)
  14158. Subject: xbiff doesn't exist in /X11/R4/cmds.ds3100
  14159.  
  14160. Would someone please re-install it? (it still exists in /X11/R4/cmds.sun4)
  14161.  
  14162.  
  14163.  
  14164.  
  14165. 1509.
  14166. Date: Fri, 24 Aug 90 09:20:54 PDT
  14167. From: pmchen (Peter M. Chen)
  14168. Subject: still can't boot
  14169.  
  14170. Even though ginger is up, we still can't boot our machines (garlic and
  14171. forgery in particular).
  14172.  
  14173.  
  14174.  
  14175.  
  14176. 1510.
  14177. Date: Fri, 24 Aug 90 10:55:29 PDT
  14178. From: Mike Kupfer <kupfer>
  14179. Subject: deletion of file doesn't change directory mod time
  14180.  
  14181. If I delete a file, the modification time for the directory it was in
  14182. remains unchanged.  Is this deliberate?  It's not Unix-compatible, and
  14183. it confuses programs like xmh, which cache information about
  14184. directories.
  14185.  
  14186.  
  14187.  
  14188.  
  14189. 1511.
  14190. Date: Fri, 24 Aug 90 15:56:53 PDT
  14191. From: ouster (John Ousterhout)
  14192. Subject: Re: booting
  14193.  
  14194. I fixed Pete's booting problems, but then forgot to send a message
  14195. about it (sorry).  I fixed the problems by restarting portmap,
  14196. bootp, and tftpd on Allspice.  It looked like portmap was in an
  14197. infinite loop.  I tried to put it into the debugger, but "kill -DEBUG"
  14198. didn't have any effect so I eventually "kill -KILL"ed it.
  14199.  
  14200.  
  14201.  
  14202.  
  14203. 1512.
  14204. Date: Fri, 24 Aug 90 16:01:31 PDT
  14205. From: tve (Thorsten von Eicken)
  14206. Subject: /user1 full & big lost+found
  14207.  
  14208. I rm'ed old stuff in /user1/lost+found and got >10 Megs. Maybe some
  14209. regular cleanup of lost+found would be useful?
  14210.  
  14211.  
  14212.  
  14213.  
  14214. 1513.
  14215. Date: Fri, 24 Aug 90 16:03:32 PDT
  14216. From: Fred Douglis <douglis>
  14217. Subject: portmap
  14218.  
  14219. portmap was in an infinite loop yet again when i got to campus this
  14220. afternoon.  i was able to kill -DEBUG it, so i looked at it.  turns
  14221. out the usual "recvfrom -> error" problem was at fault.  the sunrpc
  14222. library always returned that a stream was okay rather than flagging it
  14223. as bad and destroying it.  i tried changing the library and running
  14224. the uninstalled portmap to make sure it worked okay, but i hadn't
  14225. installed it as of the time allspice rebooted.  i'll do so now and
  14226. restart portmap.
  14227.  
  14228.  
  14229.  
  14230.  
  14231. 1514.
  14232. Date: Fri, 24 Aug 90 17:45:48 PDT
  14233. From: Fred Douglis <douglis>
  14234. Subject: fclose(NULL) hits segv
  14235.  
  14236. tex tries to check the access of a file by doing:
  14237.  
  14238.             ok = fclose(fopen(name_of_file, "w")) == 0;
  14239.  
  14240. this causes a segmentation violation when fclose tries to flush the
  14241. stream.  the man page for fclose says:
  14242.  
  14243.      These routines return EOF if stream is not associated with
  14244.      an output file, or if buffered data cannot be transferred to
  14245.      that file.
  14246.  
  14247.  
  14248.  
  14249.  
  14250. 1515.
  14251. Date: Fri, 24 Aug 90 19:56:00 PDT
  14252. From: gibson (Garth Gibson)
  14253. Subject: file corruption
  14254.  
  14255. I don't often use Sprite these days and I still receive plenty of mail
  14256. here, so I went in to clean up and found this:
  14257.  
  14258. garlic 1> mail
  14259. Warning: encountered nulls at 77185.  Mail spool file may be damaged.
  14260.  
  14261. Does anybody want to look at it?  I thought file corruption on Sprite
  14262. was a thing of the past?
  14263.  
  14264.  
  14265.  
  14266.  
  14267. 1516.
  14268. Date: Sat, 25 Aug 90 11:12:41 PDT
  14269. From: tve (Thorsten von Eicken)
  14270. Subject: portmap on allspice in infinite loop again (I didn't touch it)
  14271.  
  14272.  
  14273.  
  14274.  
  14275. 1517.
  14276. Date: Sat, 25 Aug 90 13:27:35 PDT
  14277. From: Mike Kupfer <kupfer>
  14278. Subject: bogus stack backtrace on sun4
  14279.  
  14280. I was debugging portmap on allspice, and gdb told me that the stack
  14281. backtrace looked like
  14282.  
  14283.   #0  0x486c in svcerr_noprog (xprt=(SVCXPRT *) 0x1bfffdf0) (svc.c line 325)
  14284. 325             rply.acpted_rply.ar_verf = xprt->xp_verf;  
  14285.   #1  0x4a1c in svc_getreqset (readfds=(struct fd_set *) 0x1bfffdf0) (svc.c line 432)
  14286.   #2  0x4d88 in _svcauth_unix (rqst=(struct svc_req *) 0x485c8, msg=(struct rpc_msg *) 0x186a0) (svc_auth_unix.c line 105)
  14287.   #3  0x2350 in main () (portmap.c line 134)
  14288.  
  14289. This looks highly suspicious.  svc_getreqset calls _authenticate,
  14290. which should call _svcauth_unix via a jump table.  (There's also the
  14291. matter of why the backtrace doesn't show svc_run, which should be
  14292. between main() and svc_getreqset.)  And of course there's no path from
  14293. svc_getreqset to svcerr_noprog...
  14294.  
  14295. I had to do a "kill -ILL" to put portmap into the debugger (portmap
  14296. was chewing up lots of CPU and "kill -DEBUG" was being ignored). 
  14297. Could that have anything to do with this weirdness (seems unlikely,
  14298. though)?
  14299.  
  14300.  
  14301.  
  14302.  
  14303. 1518.
  14304. Date: Sat, 25 Aug 90 13:32:20 PDT
  14305. From: Mike Kupfer <kupfer>
  14306. Subject: mangled file in sunrpc sources
  14307.  
  14308. /sprite/src/lib/sunrpc/DISCLAIMER is mangled.  I assume we chalk it up
  14309. to the filesystem problems Sprite was having earlier in the summer?
  14310.  
  14311. More to the point, if this file is something we intend to distribute,
  14312. we should probably install a clean version.  Anyone know where to get
  14313. a copy?
  14314.  
  14315.  
  14316.  
  14317.  
  14318. 1519.
  14319. Date: Sat, 25 Aug 90 15:58:02 PDT
  14320. From: Fred Douglis <douglis>
  14321. Subject: Re: rlogin dead on allspice 
  14322.  
  14323. oddly, telnetting to allspice, killing inetd, and restarting it caused
  14324. rlogin to work again.  
  14325.  
  14326.  
  14327.  
  14328.  
  14329.  
  14330. 1520.
  14331. Date: Sun, 26 Aug 90 13:18:01 PDT
  14332. From: tve (Thorsten von Eicken)
  14333. Subject: allspice down sun 3am - 1pm
  14334.  
  14335. ... it wanted to sleep even longer than me ...
  14336. It had a lot of "intel" error messages on the console.
  14337.  
  14338.  
  14339.  
  14340.  
  14341. 1521.
  14342. Date: Sun, 26 Aug 90 14:43:27 PDT
  14343. From: gibson@apathy.Berkeley.EDU (Garth Gibson)
  14344. Subject: background pmakes
  14345.  
  14346. I've told Fred about this, but I thought I should report directly.
  14347.  
  14348. I issued 100 simulations through pmake with .BACKGROUND: yesterday.
  14349. This was done from garlic (ds3100) when there were about 9-10 available
  14350. ds3100s.  The first 20 simulations went wonderfully, I even did a compile
  14351. while they were running and got full parallelism without trashing the
  14352. simulations.
  14353.  
  14354. Somewhere between the 20th and 30th simulation a problem developed.
  14355. First, of 9 parallel jobs, 4 of them ended up on garlic running in
  14356. parallel with only 5 jobs migrated to other processors (there was still
  14357. about 9 available processors).  Then the total number of jobs running
  14358. at once dropped to 6 (still about 9 avail ds3100s) and half of these 
  14359. were running on garlic.
  14360.  
  14361. When I looked at it today, the pmake was still running and one simulation
  14362. was not complete.  I looked into the pmake output and discovered that
  14363. the 26th simulation was never issued.
  14364.  
  14365.  
  14366.  
  14367.  
  14368. 1522.
  14369. Date: Sun, 26 Aug 90 14:51:23 PDT
  14370. From: gibson (Garth Gibson)
  14371. Subject: C printf
  14372.  
  14373. On the ds3100 my simulations generate NaN and print it as a normal
  14374. floating point number.  On SunOS the string "NaN" is printed.  On
  14375. the ds3100 the string printed is "n(NaN" where n is a single digit
  14376. between 0 and 9.  This is making quite hard for programs that read
  14377. my simulations' output.
  14378.  
  14379.  
  14380.  
  14381.  
  14382. 1523.
  14383. Date: Sun, 26 Aug 90 15:46:40 PDT
  14384. From: shirriff (Ken Shirriff)
  14385. Subject: Nutmeg's monitor died.
  14386.  
  14387. The image on nutmeg's screen suddenly folded up and came back, making
  14388. a click noise and emitting a small puff of smoke.  A few seconds later
  14389. the monitor started making buzzing noises so I figured it was best to
  14390. turn it off.  Could the appropriate people get this fixed?
  14391.  
  14392.  
  14393.  
  14394.  
  14395. 1524.
  14396. Date: Sun, 26 Aug 90 15:58:11 PDT
  14397. From: tve (Thorsten von Eicken)
  14398. Subject: Fsconsist_RpcConsist
  14399.  
  14400. I'm getting heaps of
  14401. "Fsconsist_RpcConsist: <3,133696> delete msg from 14 dropped: no handle"
  14402. messages on crackle (one for each file I rm). When deleting
  14403. lots of files, this is a real pain.
  14404.  
  14405.  
  14406.  
  14407.  
  14408.  
  14409. 1525.
  14410. Date: Sun, 26 Aug 90 16:04:23 PDT
  14411. From: Fred Douglis <douglis>
  14412. Subject: Re: Fsconsist_RpcConsist 
  14413.  
  14414. the theory had been that this happens because lots of handles get
  14415. used up for pipes in limbo, so as soon as you delete a file your
  14416. handle for it gets scavenged.  then the file server sends you a
  14417. consistency message because it doesn't know it got scavenged.
  14418.  
  14419. however, crackle doesn't have lots of handles in this state, so it's
  14420. not clear that's really the problem.  i've fixed the pipe problem (for
  14421. the next kernel) but i think we should also just nuke the warning
  14422. message, since it's unnecessarily verbose.  if anyone objects to my
  14423. removing this message, speak up.
  14424.  
  14425.  
  14426.  
  14427.  
  14428. 1526.
  14429. Date: Sun, 26 Aug 90 21:48:03 PDT
  14430. From: gibson (Garth Gibson)
  14431. Subject: long simulations on ds3100s
  14432.  
  14433. One of the long simulations I was running in the background under
  14434. pmake control detected an internal error and aborted.
  14435. An identical invocation later on (in the foreground, not pmaked)
  14436. completed with no error.  I don't know much about the error; I have
  14437. a core image - is there anything I can learned from it?  I'm concerned
  14438. because it was not the kind of error that crashes a program, it was
  14439. an assertion of correct operation.
  14440.  
  14441. This could either be migration messing up internal state or the magic
  14442. "ds3100s do weird things sometimes" bug.
  14443.  
  14444.  
  14445.  
  14446.  
  14447. 1527.
  14448. Date: Sun, 26 Aug 90 21:55:49 PDT
  14449. From: rab (Robert A. Bruce)
  14450. Subject: Re: dumps
  14451.  
  14452. The dumps are still not working.  The last successful daily dump
  14453. was on Wednesday morning.  If you have modified any important files
  14454. since then, you should make redundant copies.
  14455.  
  14456. I don't know when we will get everything working again, but right
  14457. now we don't have any properly functioning tapedrives.
  14458.  
  14459.  
  14460.  
  14461.  
  14462.  
  14463. 1528.
  14464. Date: Sun, 26 Aug 90 22:19:47 PDT
  14465. From: Mike Kupfer <kupfer>
  14466. Subject: Re: Fsconsist_RpcConsist 
  14467.  
  14468. One argument for retaining the message (perhaps in a less verbose
  14469. form) is that it's pointing out behavior that we can't explain.  If
  14470. the situation that generates these messages is also responsible for
  14471. a performance hit, then we want to get notified about it.
  14472.  
  14473.  
  14474.  
  14475.  
  14476. 1529.
  14477. Date: Mon, 27 Aug 90 10:56:42 PDT
  14478. From: Fred Douglis <douglis>
  14479. Subject: sparcstation 1+ has identity crisis
  14480.  
  14481. john reported that migrations to boing were hanging.  that's because
  14482. boing didn't shrink its file cache and was thrashing its pmegs.  the
  14483. reason for that is that "hostname -type" prints sun4 (the default)
  14484. rather than sun4c. 
  14485.  
  14486. it seems that the type for the 1+ needs to be promoted to a
  14487. full-fledged machine type, since the value in the prom is different
  14488. from existing sun4 and sun4c values.
  14489.  
  14490. in the meantime, i'll change boing's bootcmds to run fscmd.
  14491.  
  14492.  
  14493.  
  14494.  
  14495. 1530.
  14496. Date: Mon, 27 Aug 90 11:14:27 PDT
  14497. From: mendel (Mendel Rosenblum)
  14498. Subject: More on sparcstation 1+ identity crisis
  14499.  
  14500. The problem is that the machType and machArch aren't well defined for the sun4c
  14501. series.  Currently, The available machine types are:
  14502.  
  14503. #define SYS_SUN_2_50        0x02
  14504. #define SYS_SUN_2_120        0x01
  14505. #define SYS_SUN_2_160        0x02
  14506. #define SYS_SUN_3_75        0x11
  14507. #define SYS_SUN_3_160        0x11
  14508. #define SYS_SUN_3_50        0x12
  14509. #define    SYS_SUN_3_60        0x17
  14510. #define    SYS_SUN_4_C        0x51
  14511.  
  14512.  
  14513. These numbers are returned by the PROM on the different machines.  The 
  14514. problem is that 0x51 is the value for the 4/60 (SparcStation 1) while the
  14515. sparcStation 1+ has a value of 0x53.  The other sun4c's like the SLC and the
  14516. IPC have different numbers.  I suggest we nuke the symbol SYS_SUN_4_C and
  14517. replace it with 
  14518.  
  14519. #define    SYS_SUN_ARCH_MASK 0xf0
  14520. #define    SYS_SUN_IMPL_MASK 0x0f
  14521.  
  14522. #define    SYS_SUN_4C    0x50
  14523.  
  14524. #define    SYS_SUN_4C_60    0x51
  14525. #define    SYS_SUN_4C_65    0x53
  14526.  
  14527. #define    SYS_SUN_4    0x20
  14528. #define SYS_SUN_4_200    0x21
  14529.  
  14530. Note that 0xf0 is the architecture mask and 0x0f is the implementation mask.
  14531. Instead of testing for machType == SYS_SUN_4_C we should do 
  14532.  
  14533. (machType & SYS_SUN_ARCH_MASK) == SYS_SUN_4C
  14534.  
  14535. Mary, most of the test against machType are in the code that does the frame
  14536. buffer stuff. It looks like this is the reason why the X server doesn't work
  14537. correctly on the boing.
  14538.  
  14539.  
  14540. 1531.
  14541. Subject: tar doesn't understand -C
  14542. Date: Mon, 27 Aug 90 13:18:24 PDT
  14543. From: Mike Kupfer <kupfer>
  14544.  
  14545. "tar cf sprite.tar .cshrc .login .newsrc Todo emacs \
  14546.   -C /sprite/src/cmds ar/ar.c"
  14547.  
  14548. gets me "-C: no such file or directory", and tar proceeds to add all
  14549. of /spritte/src/cmds to the archive file.
  14550.  
  14551.  
  14552.  
  14553.  
  14554. 1532.
  14555. Date: Mon, 27 Aug 90 13:18:24 PDT
  14556. From: Mike Kupfer <kupfer>
  14557. Subject: tar doesn't understand -C
  14558.  
  14559. "tar cf sprite.tar .cshrc .login .newsrc Todo emacs \
  14560.   -C /sprite/src/cmds ar/ar.c"
  14561.  
  14562. gets me "-C: no such file or directory", and tar proceeds to add all
  14563. of /spritte/src/cmds to the archive file.
  14564.  
  14565.  
  14566.  
  14567.  
  14568. 1533.
  14569. Date: Mon, 27 Aug 90 13:38:58 PDT
  14570. From: eklee (Edward K. Lee)
  14571. Subject: prefix crashes raid1 when ...
  14572.  
  14573. When doing prefix -l <dir> -M <dev> if the unit number of <dev> does not
  14574. correctly encode the partition on which the filesystem is built, raid1 will
  14575. sometimes crash.  
  14576.  
  14577.  
  14578.  
  14579.  
  14580. 1534.
  14581. Date: Mon, 27 Aug 90 15:14:42 PDT
  14582. From: Fred Douglis <douglis>
  14583. Subject: allspice behavior explained; disk full problems revisited
  14584.  
  14585. allspice was behaving VERY POORLY because garlic was trying to flush a
  14586. file through to a full disk.   there are two bugs here.  one is that
  14587. the file server grinds to a halt (programs can't even start up) when a
  14588. disk fills.  the client froze up too. allspice was printing cache
  14589. messages repeatedly.  
  14590.  
  14591. the other is that the offending file wasn't behaving
  14592. as expected:
  14593.  
  14594. >>>>> On Mon, 27 Aug 90 14:17:12 PDT, gibson@sprite.Berkeley.EDU (Garth Gibson) said:
  14595.  
  14596. >> i was wrong about this morning's runs
  14597. >> those last 4 jobs were running and garlic wasn't down
  14598. >> one job did abort and dumped core - more than 100 MB
  14599. >> this filled the filesystem and appeared to freeze garlic
  14600. >> i lost my windows and it was not responding
  14601. >> when i deleted the file (from forgery) that was overfilling the
  14602. >> disk, the other jobs went on (probably all running on garlic)
  14603.  
  14604. >> why does deleting a file that a job is writing appear to truncate it?
  14605. >> on Unix, I thought the delete made the file invisible but didn't
  14606. >> affect the disk until the job stopped:
  14607.  
  14608. >> forgery 10> ls Run/run.90
  14609. >> total 94966
  14610. >>    5 histo.db   94960 reli.dump    1 reli.trace
  14611. >> forgery 11> rm Run/run.90/reli.dump
  14612. >> forgery 12> df .
  14613. >> Prefix              Server       KBytes       Used      Avail    % Used
  14614. >> /scratch3           allspice     480492     432442          0     100%
  14615. >> forgery 13> ls Run/run.90
  14616. >> total 19
  14617. >>   13 histo.db              3 reli.db               3 run.100.out
  14618. >> forgery 14> df .
  14619. >> Prefix              Server       KBytes       Used      Avail    % Used
  14620. >> /scratch3           allspice     480492     432442          0     100%
  14621. >> forgery 16> du -s Run/run.90
  14622. >> 75807   Run/run.90
  14623. >> forgery 17> ls -l !%
  14624. >> ls -l Run/run.90
  14625. >> total 76138
  14626. >>    5 -rw-rw-r--  1 gibson       4868 Aug 27 05:44 histo.db
  14627. >> 76132 -rw-rw-r--  1 gibson   99336192 Aug 27 14:02 reli.dump
  14628. >>    1 -rw-rw-r--  1 gibson         80 Aug 27 05:44 reli.trace
  14629. >> forgery 18> rm Run/run.90/reli.dump
  14630. >> forgery 19> df .
  14631. >> Prefix              Server       KBytes       Used      Avail    % Used
  14632. >> /scratch3           allspice     480492     337502      94940      78%
  14633.  
  14634. >> and later
  14635. >> garlic 9> ls Run/run.90/reli.dump
  14636. >> 10924 Run/run.90/reli.dump
  14637.  
  14638. my understanding is that removing reli.dump (11) would make the file
  14639. invisible, as garth expected, and that garth would be totally unable
  14640. to delete it to free the space.  (what i do to delete a file that a
  14641. process is actively writing is copy /dev/null onto it first to
  14642. truncate it.)  the change in size that garth describes sounds like a
  14643. nasty bug relating to caching behavior when the disk fills.
  14644.  
  14645.  
  14646.  
  14647.  
  14648. 1535.
  14649. Date: Mon, 27 Aug 90 17:06:07 PDT
  14650. From: Fred Douglis <douglis>
  14651. Subject: allspice consistency timeouts
  14652.  
  14653. allspice was hanging lots of stuff.  seems we have a big problem here:
  14654. a backtrace showed that the process that was waiting for /tmp/ctmxxxx to
  14655. get consistency replies had /tmp locked, so the guy who had / locked
  14656. was blocked waiting for /tmp, and everyone else was blocked waiting on
  14657. /.   we have to make sure that the parent isn't locked during the
  14658. consistency callback!
  14659.  
  14660.  
  14661.  
  14662.  
  14663. 1536.
  14664. Date: Tue, 28 Aug 90 11:42:49 PDT
  14665. From: Fred Douglis <douglis>
  14666. Subject: abort() incompatibility w/ unix
  14667.  
  14668. ------- Forwarded Message
  14669.  
  14670. Date:    Tue, 28 Aug 90 11:42:18 -0700 
  14671. From:    gibson@apathy.Berkeley.EDU (Garth Gibson)
  14672. To:      douglis@sprite.Berkeley.EDU
  14673. Subject: Re: pmake
  14674.  
  14675. I have a signal handler for
  14676. SIGQUIT that is intended to be used to invoke a dump.  It seems as
  14677. if calling abort() induced a SIGQUIT signal.  Does this make sense?
  14678.  
  14679. ------- End of Forwarded Message
  14680.  
  14681. sure enough, the man page for abort() implies that it terminates the
  14682. process with an illegal instruction, but sprite's abort sends
  14683. SIG_DEBUG.  shouldn't sprite send SIGILL and let that cause it to
  14684. enter the debugger if that's the appropriate action?  
  14685.  
  14686.  
  14687.  
  14688.  
  14689. 1537.
  14690. Date: Tue, 28 Aug 90 11:51:29 PDT
  14691. From: Mike Kupfer <kupfer>
  14692. Subject: idraw yields MachUNIXGetDirEntries error
  14693.  
  14694. [This is a followup to bugs 29851 and 29902.]
  14695.  
  14696. I merged the readv/writev fixes into the ds3100 kernel, but it didn't
  14697. fix the problems with idraw.
  14698.  
  14699. Problem #1: when starting idraw, there are some error messages
  14700. "MachUNIXGetDirEntries: Bad directory format".
  14701.  
  14702. Problem #2: idraw then tries to contact servers for /*.
  14703.  
  14704. [David Culler has already reported both of these.]
  14705.  
  14706. Problem #3: if I try to save a new drawing, idraw munges the path name
  14707. ("/user2/kupfer/tmp/idraw.test" becomes
  14708. "/swap1/kupfer/tmp/idraw.test").  It also generates a few more
  14709. "MachUNIXGetDirEntries: Bad directory format" messages.  The file
  14710. doesn't get saved.
  14711.  
  14712.  
  14713.  
  14714.  
  14715.  
  14716. 1538.
  14717. Date: Tue, 28 Aug 90 11:55:15 PDT
  14718. From: Fred Douglis <douglis>
  14719. Subject: Re: idraw yields MachUNIXGetDirEntries error 
  14720.  
  14721. could the "bad directory format" problems be due to byte-swapping?
  14722. i'll bet our fixes for byte swapping directories are in the user-level
  14723. directory routines linked into the program via libc.  kinda kills unix
  14724. compatibility.  
  14725.  
  14726.  
  14727.  
  14728.  
  14729. 1539.
  14730. Date: Tue, 28 Aug 90 13:06:45 PDT
  14731. From: Fred Douglis <douglis>
  14732. Subject: kernel stack limit
  14733.  
  14734. garth's been running into trouble with hosts running out of processes
  14735. because he runs a big pmake with several processes per task.  as garth
  14736. points out:
  14737.  
  14738.     the number of processes per machine need
  14739.     reflect the total processing power of all machines (of one type)
  14740.     not what you'd expect from a single machine
  14741.  
  14742. so what can we do about it??
  14743.  
  14744.  
  14745.  
  14746.  
  14747. 1540.
  14748. Date: Tue, 28 Aug 90 13:28:10 PDT
  14749. From: shirriff (Ken Shirriff)
  14750. Subject: Migration race in Proc_MigReceiveProcess
  14751.  
  14752. Cardamom (ds3100) suffered the following death:
  14753. Proc_MigReceiveProcess called Fs_DeencapFileState, which set up
  14754. procPtr->fsPtr.  It then called Fs_Open, but got FS_STALE_HANDLE.  Then it
  14755. called Fs_CloseState to clean up, but procPtr->fsPtr was now NIL.
  14756. My guess is that something else cleared fsPtr before Fs_CloseState got it.
  14757.  
  14758.  
  14759.  
  14760.  
  14761. 1541.
  14762. Date: Tue, 28 Aug 90 15:30:31 PDT
  14763. From: Mike Kupfer <kupfer>
  14764. Subject: Caps Lock on Sparcstation
  14765.  
  14766. My Caps Lock key seems to act as a shift key.  That is, if I hold it
  14767. down while typing, I get capital letters, but if I release it, I get
  14768. lower case.  Is this behavior deliberate?  (I realize that most people
  14769. seem to intensely dislike the Caps Lock key.)
  14770.  
  14771.  
  14772.  
  14773.  
  14774. 1542.
  14775. Date: Tue, 28 Aug 90 15:40:50 PDT
  14776. From: tve (Thorsten von Eicken)
  14777. Subject: can't boot
  14778.  
  14779. I can't boot our sun3/60 with "be le(0,961c,43)sun3.new" anymore. I get
  14780. a "tftp: file not found @ block 1" error.
  14781.  
  14782.  
  14783.  
  14784.  
  14785. 1543.
  14786. Date: Wed, 29 Aug 90 06:15:25 PDT
  14787. From: Fred Douglis <douglis>
  14788. Subject: allspice crash/disk state
  14789.  
  14790. the benchmarking session went fine, but then when i rebooted  allspice
  14791. with 'new' again to go home, it crashed with the same old cache
  14792. writeback bug (it started migd when the machine running migd didn't
  14793. recover with it quickly enough).  when it came back its disk was
  14794. pretty frazzled, judging by the messages.  be on the lookout..
  14795.  
  14796.  
  14797.  
  14798.  
  14799. 1544.
  14800. Date: Wed, 29 Aug 90 11:08:06 PDT
  14801. From: mendel (Mendel Rosenblum)
  14802. Subject: SigMigSend() is called with wrong arguments in DeferSignal()
  14803.  
  14804. The routine SigMigSend() is called with the wrong number of arguments in
  14805. routine DeferSignal() in the Sig module.  It get it to compile with 
  14806. function prototypes I corrected the number of arguments.   The missing
  14807. argument is the faulting address of the signal (I set to 0).  
  14808. This should probably be fixed to use the actual faulting address but it
  14809. wasn't handy in the routine.  I believe this means that migrated processes
  14810. will get a bogus address for some signals.  Anybody want to fix this?  
  14811.  
  14812.  
  14813.  
  14814.  
  14815. 1545.
  14816. Date: Wed, 29 Aug 90 17:02:01 PDT
  14817. From: Fred Douglis <douglis>
  14818. Subject: crontab bug
  14819.  
  14820. i asked joel why he was sending so many messages to himself in rapid
  14821. succession.  his response:
  14822.  
  14823. ------- Forwarded Message
  14824.  
  14825. Date:    Wed, 29 Aug 90 16:59:41 -0700 
  14826. From:    joel@sprite.Berkeley.EDU (Joel A. Fine)
  14827. To:      douglis@sprite.Berkeley.EDU
  14828. cc:      rab@sprite.Berkeley.EDU
  14829. Subject: Re: mail queue
  14830.  
  14831. Actually, it looks like crontab has gone a little haywire. In an attempt to
  14832. TEST crontab, I entered a line which looks like the following:
  14833.  
  14834. * * * * * joel csh -c 'echo xxx | Mail -s "test" joel'
  14835.  
  14836. According to normal crontab conventions, this is supposed to execute
  14837. once every minute. Evedently, crontab is executing it as fast as my
  14838. little cpu can handle it. This is a bug either in crontab or sprite or
  14839. somewhere in between.
  14840.  
  14841. I think this is why allspice went down a couple of times today. I'm
  14842. sorry about the inconvenience that this caused. I've commented out the
  14843. offending line (in /hosts/heresy/crontab, in case you're interested).
  14844.  
  14845. - - Joel Fine
  14846.  
  14847. ------- End of Forwarded Message
  14848.  
  14849.  
  14850.  
  14851.  
  14852. 1546.
  14853. Date: Wed, 29 Aug 90 18:27:58 PDT
  14854. From: rab (Robert A. Bruce)
  14855. Subject: Re: crontab bug 
  14856.  
  14857. The problem is that our library sleep() routine is too simple.
  14858.  
  14859. int
  14860. sleep(seconds)
  14861.     int seconds;
  14862. {
  14863.     struct timeval tv;
  14864.  
  14865.     tv.tv_sec = seconds;
  14866.     tv.tv_usec = 0;
  14867.     (void) select(0, (int *) 0, (int *) 0, (int *) 0, &tv);
  14868.     return 0;
  14869. }
  14870.  
  14871. This doesn't work if select is interrupted before the timeout occurs.
  14872. I replaced /sprite/src/lib/c/etc/sleep.c with the BSD version from
  14873. monet.  I relinked cron with the new sleep() and the bug disappeared.
  14874.  
  14875. I don't know why select is getting interrupted so often.
  14876.  
  14877.  
  14878.  
  14879.  
  14880.  
  14881. 1547.
  14882. Date: Wed, 29 Aug 90 18:36:03 PDT
  14883. From: shirriff (Ken Shirriff)
  14884. Subject: include loop
  14885.  
  14886. I'm having trouble getting the include files for the vm module to work
  14887. with prototypes.  The problem is the include files have a cycle, because
  14888. of an extra include file I needed for the arguments.  A simple example:
  14889.  
  14890. vm.h:
  14891. #ifndef _VM
  14892. #include "proc.h"
  14893. extern int foo _ARGS_((procType param));
  14894. typedef int vmType;
  14895.  
  14896. proc.h:
  14897. #ifndef _PROC
  14898. #include "vm.h"
  14899. vmType bar;
  14900. typedef int procType;
  14901.  
  14902. The problem is that the invocation of "vm.h" in proc.h is null, because
  14903. include files only get included once.  Thus the use of vm_type in proc.h
  14904. comes before vm_type gets defined in vm.h.  Complicating this, the loop
  14905. isn't actually this simple; it actually goes through about 5 include files.
  14906. This problem must have occurred before;  how do I solve it?
  14907.  
  14908.  
  14909.  
  14910.  
  14911. 1548.
  14912. Date: Wed, 29 Aug 90 19:02:24 PDT
  14913. From: Mike Kupfer <kupfer>
  14914. Subject: Re: include loop 
  14915.  
  14916. One possibility is to edit vm.h so that the typedef's come before
  14917. proc.h is included.
  14918.  
  14919. This problem comes up fairly frequently in Mesa.  The typical solution
  14920. is to separate the definitions file into pieces.  In this case we'd
  14921. have a vmTypes.h and a vm.h.  The basic types definitions (structs,
  14922. typedefs) go into vmTypes, the rest goes into vm.h.  You could also
  14923. have a procTypes.h.  How you split it up is partly a matter of taste,
  14924. partly a matter of pragmatics (i.e., what does it take to get the
  14925. sucker to compile).
  14926.  
  14927.  
  14928.  
  14929.  
  14930.  
  14931. 1549.
  14932. Date: Thu, 30 Aug 90 01:30:54 PDT
  14933. From: rab (Robert A. Bruce)
  14934. Subject: #@!%*&^# tapedrive (whining, cursing, etc.)
  14935.  
  14936. The tapedrive situation is going from bad to worse.  Brian and I
  14937. put allspice's tapedrive on envy, and we got the same write errors
  14938. that we had on Sprite (media error followed by file mark error).
  14939. I figured this was a sign that it was a hardware problem, and not
  14940. a Sprite software problem.  Brian loaned us a working tape drive,
  14941. so we could continue with our dumps until our drive is repaired.
  14942.  
  14943. But tonight, on the very first file, we got the same write errors
  14944. on the new drive.  Brian said that they have used this drive a lot
  14945. and have never had a write error.  I tried several different tapes,
  14946. and got write errors on all of them.    
  14947.  
  14948. In the meantime, I changed the dump script to put everything on
  14949. murder's test disk.  The tape drive we sent to be repaired is due
  14950. back on Friday.  It is supposed to have a new prom and a new
  14951. read/write board.  If we are lucky, that will fix the problem.
  14952.  
  14953.  
  14954.  
  14955.  
  14956.  
  14957. 1550.
  14958. Date: Thu, 30 Aug 90 10:34:07 PDT
  14959. From: mendel (Mendel Rosenblum)
  14960. Subject: filesystem deadlock on allspice
  14961.  
  14962. Just for the record, allspice hung up yesterday with the following
  14963. problem:
  14964.  
  14965. The basic problem was that all the RPC servers were waiting on file
  14966. handle locks.  The root of this pile up was a directory that was
  14967. locked during name lookup of a delete. Note that the parent directory
  14968. remains locked during the entire delete process including the
  14969. descriptor sync to disk and the consist callbacks. Unfortunately,
  14970. the callback to heresy for this file was returning FAILURE
  14971. because heresy was trying to open the file.  Upon get a FAILURE
  14972. the file server retries the consist RPC (busy waiting with RPCs
  14973. over the network). Every 30 of these it prints a message.  Heresy
  14974. was rejecting this message because it thought that it had an
  14975. outstanding open request for the file. Given the locked up state
  14976. of the file server, the open would probably never finish until the
  14977. consist finished but the consist was waiting for the open to finish.
  14978. So here is a guess at the problem:
  14979.  
  14980. Heresy opens, writes, and closes a file "/foo"
  14981.  
  14982. Someone else trys to delete /foo. This locks / and causes a call
  14983. back to heresy.
  14984.  
  14985. Before the call back arives, heresy trys to open the file.  Since
  14986. "/" is locked it blocks on this lock.
  14987.  
  14988. This causes the consist callback for heresy to return FAILURE and
  14989. be retried.
  14990.  
  14991.  
  14992.  
  14993.  
  14994.  
  14995. 1551.
  14996. Date: Thu, 30 Aug 90 10:48:45 PDT
  14997. From: ouster (John Ousterhout)
  14998. Subject: Re: filesystem deadlock on allspice
  14999.  
  15000. It seems to me that a "delete" operation should only lock the
  15001. parent directory long enough to remove the child from it.  Once
  15002. the child name has been removed, then the parent directory can be
  15003. unlocked while the file descriptor is cleaned up and consistence
  15004. callbacks are made.  Wouldn't this prevent the deadlock?  Moreover,
  15005. is there any need for consistency callbacks on a delete?  If the
  15006. file is open then its disk space is untouched (so caches needn't
  15007. be flushed), and if the file is closed there's no need to call back
  15008. because the caches will be flushed automatically on the next open.
  15009.  
  15010. Given our past experience with bugs on file servers, I predict that
  15011. once this problem starts happening (e.g. because the overall load on
  15012. Allspice has increased recently) it's going to happen more and more
  15013. often until we fix it.  If this is the case, then we ought to start
  15014. fixing it ASAP.  Otherwise the system is going to become so unstable
  15015. that it will be hard to keep it up long enough to fix the problem
  15016. (remember last spring?).  Is there a volunteer to take a closer look?
  15017.  
  15018. In general, it seems to me that no directories should ever be locked
  15019. while any consistency callbacks of any sort are made;  otherwise there
  15020. will be a deadlock potential between an open and a callback.  The
  15021. only reason for holding a parent directory locked is (a) to ensure that
  15022. the child file doesn't go away before it is locked, and (b) to
  15023. synchronize directory updates.  Once the child handle is locked,
  15024. there shouldn't be any need to keep the parent directory locked.  I
  15025. don't know how major of a change is required to implement this...
  15026.  
  15027.  
  15028.  
  15029.  
  15030. 1552.
  15031. Date: Thu, 30 Aug 90 13:25:05 PDT
  15032. From: jhh (John H. Hartman)
  15033. Subject: allspice reboot
  15034.  
  15035. Allspice was rebooted an hour ago in an attempt to get it running a
  15036. kernel with the additional lock debugging information.  This did not
  15037. work, because the kernel could not be loaded from disk.  Fred has
  15038. reported this bug already.  
  15039.  
  15040. I will try to reboot allspice again, this time from ginger.
  15041. I'll also look into the problems with the boot program.
  15042.  
  15043.  
  15044.  
  15045.  
  15046. 1553.
  15047. Date: Thu, 30 Aug 90 13:30:25 PDT
  15048. From: mendel (Mendel Rosenblum)
  15049. Subject: Migration killing sprite
  15050.  
  15051. The script in /sprite/src/kernel/fs.mendel.all/doit when executed with the
  15052. arguments of mkmf (ie doit mkmf) kills the client it's running on with a
  15053. seg fault in the kernel, kills one or more of the client machines of the
  15054. same type, and causes the consist hangup on allspice. Or last least it
  15055. did the last three times I ran it.
  15056.  
  15057.  
  15058.  
  15059.  
  15060.  
  15061. 1554.
  15062. Date: Thu, 30 Aug 90 15:24:13 PDT
  15063. From: Mike Kupfer <kupfer>
  15064. Subject: no profiled libc for ds3100?
  15065.  
  15066. There's no /sprite/lib/ds3100.md/libc_p.a.  Is this accidental or
  15067. deliberate?  We also seem to be missing the ds3100 sources for modf().
  15068.  
  15069.  
  15070.  
  15071.  
  15072.  
  15073. 1555.
  15074. Date: Thu, 30 Aug 90 16:34:41 PDT
  15075. From: Fred Douglis <douglis>
  15076. Subject: migd/rpc bug
  15077.  
  15078. treason was running the migration daemon.  after recovery with
  15079. allspice my machine hung.  it turned out i wasn't hung up on allspice
  15080. but had several rpc's hung to treason.  "rpcstat -srvr" on treason
  15081. showed every rpc daemon in the busy state.  i tried killing migd to
  15082. clear things up but it wouldn't die -- it must have been waiting on an
  15083. rpc itself.  an "l1-i" to list what things were waiting on caused
  15084. treason to go into the debugger with "current process is nil".  i
  15085. really can't debug it now.
  15086.  
  15087.  
  15088.  
  15089.  
  15090. 1556.
  15091. Date: Fri, 31 Aug 90 13:07:46 PDT
  15092. From: shirriff (Ken Shirriff)
  15093. Subject: Strange consistency problem
  15094.  
  15095. Violence got rpc timeouts with allspice for consistency sync, but
  15096. allspice hadn't crashed.  These timeouts only affected the rn I was
  15097. running, which totally locked up and couldn't be killed; everything
  15098. else worked fine on violence.  After 1/2 hour, it hadn't unlocked itself
  15099. so I tried debugging violence, but I couldn't get a decent stack trace
  15100. for the rn process.
  15101.  
  15102.  
  15103.  
  15104.  
  15105. 1557.
  15106. Date: Fri, 31 Aug 90 16:20:40 PDT
  15107. From: Fred Douglis <douglis>
  15108. Subject: Reli crashed sun4cs
  15109.  
  15110. treason & larceny died with the following:
  15111.  
  15112. "Floating point exception with bad trap code, fsr = 0x%x\n", 
  15113.             machStatePtr->trapRegs->fsr);
  15114.  
  15115. (gdb) p/x machStatePtr->trapRegs->fsr
  15116. %4 = 0x00068670
  15117.  
  15118.  
  15119.  
  15120.  
  15121. 1558.
  15122. Date: Fri, 31 Aug 90 16:22:37 PDT
  15123. From: Mike Kupfer <kupfer>
  15124. Subject: name/type clashes with system calls
  15125.  
  15126. John H. and I just ran into the following problem.
  15127.  
  15128. The kernel contains some routines from the user "net" library (-lnet).
  15129. These routines #include both the kernel net.h and the user net.h, each
  15130. of which declares Net_InstallRoute.  Unfortunately, John's kernel
  15131. version of Net_InstallRoute takes different arguments than the user
  15132. version, so the compiler complains about conflicting type errors.
  15133.  
  15134. This seems like a general, potentially hairy problem, caused by having
  15135. (library) code that runs either in the kernel or in user mode.
  15136.  
  15137. Our current solution is to "#ifndef KERNEL" out the Net_InstallRoute
  15138. declaration in the user net.h.  (Similarly, the kernel net.h
  15139. should use "#ifdef KERNEL".)  This seems pretty kludgy, though. 
  15140.  
  15141. We thought about forcing the two Net_InstallRoutes to take the same
  15142. parameters, but that seems untenable in general.  It would require
  15143. that every system call stub take the same arguments as the internal
  15144. version of the system call.
  15145.  
  15146. Another thought is to use a different name for the internal version of
  15147. the system call (e.g., the user calls routine Foo, which traps into
  15148. FooStub, when then calls FooImpl).  Either the library routine would
  15149. have to have an "#ifdef KERNEL" so that it calls the right name, or we
  15150. could use a cpp macro (e.g., in the kernel net.h) to fudge the name. 
  15151. Of course, this is pretty ugly, too.
  15152.  
  15153. Anyone have ideas for a general solution?
  15154.  
  15155.  
  15156.  
  15157.  
  15158.  
  15159. 1559.
  15160. Date: Fri, 31 Aug 90 22:51:02 PDT
  15161. From: Mike Kupfer <kupfer>
  15162. Subject: fscheck complaints on allspice
  15163.  
  15164. The past couple times I've been near allspice's console when it's
  15165. booting, I've noticed complaints about .fscheck.out not being big
  15166. enough.  The message says something like "427 > 0", whatever that
  15167. means.
  15168.  
  15169.  
  15170.  
  15171.  
  15172. 1560.
  15173. Date: Sat, 01 Sep 90 20:56:07 PDT
  15174. From: Fred Douglis <douglis>
  15175. Subject: blackmail bugs
  15176.  
  15177. 1) blackmail started the global migd and was screwing things up,
  15178. still.  it doesn't seem to use the right files, or something.  i
  15179. added a "global-migd-prohibited" file for blackmail (and for all the
  15180. sun3s while i was at it).
  15181.  
  15182. 2) at least two symm binaries are not installed setuid when they
  15183. should be.  one of them is su, which means i have to su on another
  15184. machine to chmod things, kill root processes, etc.  the other is the
  15185. migd binary.  
  15186.  
  15187.  
  15188.  
  15189.  
  15190.  
  15191. 1561.
  15192. Date: Sat, 01 Sep 90 21:10:42 PDT
  15193. From: Fred Douglis <douglis>
  15194. Subject: more bugs for blackmail
  15195.  
  15196. setuid doesn't seem to work, period.  changing a process to be setuid,
  15197. owned by root, doesn't get it to run as root.
  15198.  
  15199. also, when i tried to recompile migd, it failed because (1)
  15200. symm.md/md.mk referred to sym.md instead, and (2) mkmf wouldn't work
  15201. because everything in symm.md was owned by fubar and not writable.
  15202.  
  15203. i give up on blackmail.  i'm removing its migd binary.
  15204.  
  15205.  
  15206.  
  15207.  
  15208.  
  15209. 1562.
  15210. Date: Sun, 2 Sep 90 17:23:13 PDT
  15211. From: tve (Thorsten von Eicken)
  15212. Subject: bogus ps output
  15213.  
  15214. [crackle slides] ps -au | head
  15215. Couldn't find migrated pid "24c31": the operation was successful.
  15216. USER     PID   %CPU %MEM  SIZE   RSS STATE   TIME PR COMMAND
  15217. tve      2371c 19078.1  0.0    76     0 READY   0:02    mss_syll -f ...
  15218. tve      43782 16442.5  4.6   776   752 READY   0:21    pmake
  15219. tve      d3731 7703.1  2.4   404   392 READY   0:01    mss_syll -f ...
  15220. tve       373a 7045.3  7.8  3204  1272 RWAIT  22:36    X :0
  15221. tve      c3722 5003.9  2.5   420   408 RWAIT   0:00    mss_deroff -f ...
  15222. tve      a3745 2916.5  3.0  1004   488 RWAIT   0:32    xterm
  15223. tve      53741 2187.5  1.4   248   236 READY   0:00    mss_syll -f ...
  15224. tve      8373e 1875.0  1.8   308   296 READY   0:00    mss_deroff -f ...
  15225. tve      a3746 1569.3  2.2   840   356 RWAIT   0:26    xterm
  15226.  
  15227.  
  15228.  
  15229.  
  15230.  
  15231. 1563.
  15232. Date: Sun, 2 Sep 90 23:07:39 PDT
  15233. From: tve (Thorsten von Eicken)
  15234. Subject: fsmakedev -p doesn't work correctly
  15235.  
  15236. crackle-1# cd /dev
  15237. crackle-2# rm audio
  15238. crackle-3# fsmakedev -d 15 -p 666 audio
  15239. crackle-4# ls -l audio
  15240. c-w--wx---  1 root      15,   0 Sep  2 23:06 audio*
  15241. crackle-5# chmod 666 audio
  15242. crackle-6# ls -l audio
  15243. crw-rw-rw-  1 root      15,   0 Sep  2 23:06 audio
  15244. crackle-7# exit
  15245.  
  15246.  
  15247.  
  15248.  
  15249. 1564.
  15250. Date: Mon, 03 Sep 90 14:15:54 PDT
  15251. From: Fred Douglis <douglis>
  15252. Subject: lost+found messages
  15253.  
  15254. i am getting both empty messages ("you have files.." but no
  15255. directories listed) and duplicate messages.
  15256.  
  15257.  
  15258.  
  15259.  
  15260. 1565.
  15261. Date: Tue, 04 Sep 90 10:48:35 PDT
  15262. From: Mike Kupfer <kupfer>
  15263. Subject: ANSI generic pointer type
  15264.  
  15265. I think we're slightly ANSI incompatible, in that we typedef Address
  15266. to be "char *" (when it should be "void *").  This isn't that big a
  15267. deal, but we could conceivably get complaints when users compile their
  15268. ANSI-compliant programs under Sprite.
  15269.  
  15270.  
  15271.  
  15272.  
  15273. 1566.
  15274. Date: Tue, 4 Sep 1990 12:53:05 PDT
  15275. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  15276. Subject: migration problems
  15277.  
  15278. I ran a pmake and got the following errors:
  15279.  
  15280. Rpc_Call, bad serverID <-1>
  15281. Warning: SigMigSend:Error trying to signal 11 to process 11f45 (ffffffff on host -1):
  15282.         an argument to a call was invalid
  15283. Warning: SigMigSend:Error trying to signal 11 to process 51f6b (e144c on host 20):
  15284.         the specified process's user ID does not match the current process's uid
  15285.  
  15286.  
  15287.  
  15288.  
  15289. 1567.
  15290. Date: Tue, 4 Sep 90 16:03:33 PDT
  15291. From: elm (ethan miller)
  15292. Subject: bug in ps on sun4c
  15293.  
  15294. For some reason, ps -au prints unrealistic (>2000%) numbers for
  15295. CPU.  This happens for quite a few processes, with the numbers
  15296. starting above 2000 and dropping slowly down to 0.0.
  15297.  
  15298.  
  15299.  
  15300.  
  15301.  
  15302. 1568.
  15303. Date: Tue, 04 Sep 90 16:37:04 PDT
  15304. From: Fred Douglis <douglis>
  15305. Subject: Re: bug in ps on sun4c 
  15306.  
  15307. it turns out the problem is in the recent change to distinguish
  15308. multiple machine types.  i've installed a new ps that should fix the
  15309. problem.  
  15310.  
  15311.  
  15312.  
  15313.  
  15314. 1569.
  15315. Date: Wed, 5 Sep 90 11:29:29 PDT
  15316. From: pmchen (Peter M. Chen)
  15317. Subject: vagrancy crashed
  15318.  
  15319. vagrancy crashed about 3 days ago.  The error was 
  15320. Proc_RpcRemoteCall: unparsed call 1 returned 0
  15321. Entering debugger with a Breakpoint trap exception at PC 0x80094d6c.
  15322.  
  15323.  
  15324.  
  15325.  
  15326. 1570.
  15327. Date: Wed, 5 Sep 90 13:21:47 PDT
  15328. From: shirriff (Ken Shirriff)
  15329. Subject: allspice/oregano consistency
  15330.  
  15331. Allspice is printing a bunch of messages:
  15332. ClientCommand, write-back msg to client 38 file "rawstat.11:06:15.Z" <5,41218> failed 40012
  15333.         Client state killed: 0 refs 0 write 0 exec
  15334.  
  15335. Oregano is printing a bunch of messages:
  15336. FsConsist_RpcConsist <5,41218> Writeback message from 14 dropped: no handle
  15337.  
  15338. Which kernel has the changes to prevent the writeback errors?
  15339.  
  15340.  
  15341.  
  15342.  
  15343. 1571.
  15344. Date: Thu, 6 Sep 90 14:10:39 PDT
  15345. From: shirriff (Ken Shirriff)
  15346. Subject: ntalkd loop
  15347.  
  15348. Ntalkd on allspice went insane and kept printing:
  15349. <28>Sep  6 13:53:02 talkd[e0e47]: recv: stale remote file handle
  15350. Each time I killed the ntalkd, a new one would start.  The only way I
  15351. could stop it was by removing /sprite/daemons/ntalkd.
  15352.  
  15353. It was very difficult to fix the problem because the console screen was
  15354. filled up with scrolling error messages.  Suggestions:
  15355. 1.  Don't log messages to the screen, since they are saved in a file anyways.
  15356. 2.  Have some way of disabling syslog messages to the screen.
  15357. 3.  Pass the syslog messages to a filter which will slow the rate to
  15358. something reasonable.
  15359.  
  15360.  
  15361.  
  15362.  
  15363. 1572.
  15364. Date: Thu, 6 Sep 90 15:58:05 PDT
  15365. From: dingle (Adam T. Dingle)
  15366. Subject: two bugs
  15367.  
  15368. 1.  On the Sun 3, if the MACHINE environment variable is set to the name of a
  15369.     machine which the C compiler does not recognize, the compiler will
  15370.     dump core.  (This does not happen on the Sun 4.)
  15371.  
  15372. Example:
  15373.  
  15374. % ls
  15375. Makefile        linkdata.c      tags.h
  15376. % setenv MACHINE vax
  15377. % cc linkdata.c
  15378.  
  15379. Segmentation violation
  15380. %
  15381.  
  15382. 2.  On the Sun 3 (and possibly on other machines), if a command (such
  15383.     as the preceding cc command) dumps core, pmake will terminate quietly,
  15384.     without any indication that the command did not execute properly.
  15385.  
  15386. Example:
  15387.  
  15388. % ls
  15389. Makefile        linkdata.c      tags.h
  15390. % setenv MACHINE vax
  15391. % make
  15392. cc -Dvax -o linkdata linkdata.c
  15393. % ls
  15394. Makefile        linkdata.c      tags.h
  15395.  
  15396.  
  15397.  
  15398.  
  15399. 1573.
  15400. Date: Thu, 06 Sep 90 16:04:09 PDT
  15401. From: Fred Douglis <douglis>
  15402. Subject: Re: two bugs 
  15403.  
  15404. you don't ever, ever want to reset your MACHINE environment variable.
  15405. too bad this can't really be enforced, though.  maybe there could be a
  15406. special mechanism for getting the value of MACHINE from the kernel
  15407. instead of the normal environment.
  15408.  
  15409. as for pmake terminating quietly, this is true on all machines.
  15410. if you run pmake and it executes a process locally that hits a
  15411. segmentation fault, you'll get a message on /dev/syslog saying your
  15412. process went into the debugger.  if you run remotely, the process gets
  15413. killed, which we believed was better than going into the debugger
  15414. quietly.  sprite needs to (1) support controlling ttys, so you can see
  15415. messages wherever you are, and/or (2) get rid of the "debug" state.  
  15416.  
  15417.  
  15418.  
  15419.  
  15420. 1574.
  15421. Date: Thu, 6 Sep 90 17:11:01 PDT
  15422. From: pmchen (Peter M. Chen)
  15423. Subject: vagrancy
  15424.  
  15425. won't boot.  No response after I type
  15426. boot -f tftp()new
  15427.  
  15428.  
  15429.  
  15430.  
  15431. 1575.
  15432. Date: Fri, 07 Sep 90 13:43:07 PDT
  15433. From: Mike Kupfer <kupfer>
  15434. Subject: arguments to signal handler
  15435.  
  15436. Adam (Dingle, I assume) pointed out to me that signal.h talks about
  15437. how the sigcontext struct is "made available to the handler to allow
  15438. it to properly restore state if a non-standard exit is performed."
  15439. However, at no place in signal.h or any of the expected man files is
  15440. there a description of just what arguments are passed to the handler
  15441. (or in what order).
  15442.  
  15443.  
  15444.  
  15445.  
  15446. 1576.
  15447. Date: Fri, 7 Sep 90 15:43:37 PDT
  15448. From: bmiller (Bob Miller)
  15449. Subject: printer problem
  15450.  
  15451. I seem to be having a problem printing on lw533.  In addition to my
  15452. job, Fred's got one out there, too.  'lpq' shows 'waiting for queue
  15453. to be enabled on shallot'.   HELP!!!!!!!!!!!!!
  15454.  
  15455.  
  15456.  
  15457.  
  15458.  
  15459. 1577.
  15460. Date: Sat, 8 Sep 90 10:57:16 PDT
  15461. From: dingle (Adam T. Dingle)
  15462. Subject: can't execute program loaded with -n on sun 3
  15463.  
  15464. On the Sun 3, I can't seem to execute programs which I load with the
  15465. -n option (to make their code segments sharable).  Example:
  15466.  
  15467. % cat foo.c
  15468. main()
  15469. {
  15470. printf("hello, world\n");
  15471. }
  15472. % cc -n foo.c
  15473. % a.out
  15474. a.out: permission denied.
  15475.  
  15476. The console reads:
  15477.  
  15478. Proc_Exec: Can't run sun3 NMAGIC executable file on sun3.
  15479.  
  15480. Any suggestions?
  15481.  
  15482.  
  15483.  
  15484.  
  15485. 1578.
  15486. Date: Sat, 8 Sep 90 11:43:48 PDT
  15487. From: dingle (Adam T. Dingle)
  15488. Subject: UNIX-domain sockets under Sprite
  15489.  
  15490. Are UNIX-domain sockets (i.e. those created for protocol family PF_UNIX)
  15491. supported under Sprite?  If so, where is the sockaddr_un structure
  15492. defined, used for specifying UNIX-domain addresses, defined?  I can't
  15493. seem to find it in any of the .h files in /usr/include or
  15494. /usr/include/sys.
  15495.  
  15496. P.S.  Is there an e-mail address for questions (as opposed to bugs)
  15497.       about Sprite?
  15498.  
  15499.  
  15500.  
  15501.  
  15502.  
  15503. 1579.
  15504. Date: Sun, 9 Sep 90 14:41:58 PDT
  15505. From: mendel (Mendel Rosenblum)
  15506. Subject: Short read()s not Unix compatible
  15507.  
  15508. The man page for the read() system call states:
  15509.  
  15510.      Upon successful completion, read and readv return the number
  15511.      of bytes actually read and placed in the buffer.  The system
  15512.      guarantees to read the number of bytes requested if the
  15513.      descriptor references a normal file that has that many bytes
  15514.      left before the end-of-file, but in no other case.
  15515.  
  15516. This guarantee is not held in the Sprite file system in the face of 
  15517. the file caching filling with dirty blocks. The problem is that
  15518. Fscache_Read() returns FS_WOULD_BLOCK if it can't fetch a cache block 
  15519. because the cache is full of dirty blocks.  If the block fetch that fails
  15520. is not the first block of the read it will also return the number of bytes
  15521. read.  The main read loop in Fs_Read() changes the status from FS_WOULD_BLOCK
  15522. to SUCCESS if bytes are returned.  This causes the read the return before
  15523. it has reached end of file. Code that looks like:
  15524.  
  15525.     if (read(fd, buf, fileSize) != fileSize) {
  15526.         panic("...");
  15527.     }
  15528. fails on Sprite but works on Unix.
  15529.  
  15530. This problem appears to be similiar to the problems in the Fs_Write loop
  15531. that John Hartman had with device writes.  John do you think your fix 
  15532. will work for the Read code? 
  15533.  
  15534.  
  15535.  
  15536.  
  15537.  
  15538. 1580.
  15539. Date: Sun, 9 Sep 90 16:39:57 PDT
  15540. From: mendel (Mendel Rosenblum)
  15541. Subject: allspice crashed
  15542.  
  15543. Allspiced deadlocked /tmp today. The problem was a handle for file in /tmp
  15544. was locked by an idle Proc_ServerProc.  The tracing of PCs on monitor
  15545. locks didn't help because file handles have there own locking and
  15546. lock tracing mechanisms.   Also, it took over 25 minutes for allspice
  15547. to complete recovery with the machines in 477 evans.  
  15548.  
  15549.  
  15550.  
  15551.  
  15552.  
  15553. 1581.
  15554. Date: Mon, 10 Sep 90 05:32:34 PDT
  15555. From: rab (Robert A. Bruce)
  15556. Subject: finger
  15557.  
  15558. Finger was getting a segmentation violation.  It looks like
  15559. /sprite/admin/userLog is corrupted.  I moved it to userLog.bad,
  15560. and now finger works again.
  15561.  
  15562.  
  15563.  
  15564.  
  15565. 1582.
  15566. Date: Mon, 10 Sep 90 18:20:42 PDT
  15567. From: mendel (Mendel Rosenblum)
  15568. Subject: typedef Address must be "char *" 
  15569.  
  15570. I changed the typedef of Address back to a "char *" from a "void *". The 
  15571. comment on Address says:
  15572.  
  15573. /*
  15574.  * An address is just a pointer in C.  It is defined as a character pointer
  15575.  * so that address arithmetic will work properly, a byte at a time.
  15576.  */
  15577.  
  15578. and you can't do address arithmetic on a "void *".
  15579.  
  15580.  
  15581.  
  15582.  
  15583. 1583.
  15584. Date: Mon, 10 Sep 90 18:21:56 PDT
  15585. From: shirriff (Ken Shirriff)
  15586. Subject: tx clear doesn't always work
  15587.  
  15588. If I'm rlogged in, "clear" doesn't work about 1/10 of the time.
  15589. Sometimes it takes up to 3 clears before the screen actually gets cleared.
  15590. (The particular case is rlogged in to sage (sun4) from violence (ds3100).)
  15591.  
  15592.  
  15593.  
  15594.  
  15595. 1584.
  15596. Date: Tue, 11 Sep 1990 13:54:03 PDT
  15597. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  15598. Subject: fsmakedev fixed
  15599.  
  15600. Fsmakedev has been changed so that the -p option expects octal numbers,
  15601. rather than integers.  This fixes bug 1563 reported by tve.
  15602.  
  15603.  
  15604.  
  15605.  
  15606. 1585.
  15607. Date: Tue, 11 Sep 90 15:53:10 PDT
  15608. From: douglis (Fred Douglis)
  15609. Subject: swap space
  15610.  
  15611. as part of the disk space reorganization, we must move /swap1 to a larger disk.
  15612. it's full right now just from normal accumulation of processes (not huge
  15613. simulations or anything).
  15614.  
  15615.  
  15616.  
  15617. 1586.
  15618. Date: Tue, 11 Sep 1990 16:51:40 PDT
  15619. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  15620. Subject: more on swap
  15621.  
  15622. Seeing as how we don't have too many large disks why don't we just create
  15623. a /swap2 and move some of the machines there?  Our disk re-organization 
  15624. will be freeing up a number of disks.  Is there some reason why multiple
  15625. swap disks are bad?
  15626.  
  15627.  
  15628.  
  15629.  
  15630. 1587.
  15631. Date: Tue, 11 Sep 90 16:04:43 PDT
  15632. From: mendel (Mendel Rosenblum)
  15633. Subject: ds3100 compiler bug?  
  15634.  
  15635. When compiling the timer module (with -O) for the ds3100 you get the message:
  15636.  
  15637. --- ds3100.md/timerTick.o ---
  15638. uopt: Warning: TimerTicksInit line 61: multiplication overflow
  15639.  
  15640. Line 61 looks like:
  15641.  
  15642. TimerTicksInit()
  15643. {
  15644.     timer_IntOneMillisecond = 1000;
  15645.     timer_IntOneSecond = ONE_MILLION;
  15646.     timer_IntZeroSeconds = 0;
  15647.     timer_IntOneMinute = timer_IntOneSecond * 60;  
  15648.     timer_IntOneHour = timer_IntOneSecond * 3600;  /* line 61 */
  15649.     bzero((Address)&timer_TicksZeroSeconds, sizeof(timer_TicksZeroSeconds));
  15650. }
  15651.  
  15652. The timer_ variables are declared as unsigned ints. It appears to
  15653. generated the correct code.
  15654.  
  15655.  
  15656.  
  15657.  
  15658. 1588.
  15659. Date: Tue, 11 Sep 90 16:57:52 PDT
  15660. From: mendel (Mendel Rosenblum)
  15661. Subject: problem between utils and dev module
  15662.  
  15663. The utils and dev modules disagree of the arguments to Dev_RegisterConsoleCmd().
  15664. The dev module things it wants a pointer to a function returning void and
  15665. taking no argument but the utils module is passing it a pointer to a function
  15666. returning void and take a clientData as an argument.
  15667.  
  15668.  
  15669.  
  15670.  
  15671. 1589.
  15672. Date: Tue, 11 Sep 90 17:16:07 PDT
  15673. From: Mike Kupfer <kupfer>
  15674. Subject: Re: problem between utils and dev module 
  15675.  
  15676. The utils module has it right.  See Dev_RegisterConsoleCmd.
  15677.  
  15678.  
  15679.  
  15680.  
  15681. 1590.
  15682. Date: Wed, 12 Sep 90 15:15:22 PDT
  15683. From: rab (Robert A. Bruce)
  15684. Subject: oregano out of memory
  15685.  
  15686. Oregano ran out of memory again.  Here are the memory
  15687. trace stats:
  15688.  
  15689. (gdb) 
  15690. (gdb) print Mem_PrintStatsInt()
  15691.  
  15692. Total allocs = 21574743, frees = 21484353
  15693.  
  15694. Small object allocator:
  15695.     Size     Total    Allocs    In Use
  15696.       24     48716   4085039     48716
  15697.       32     18508   1974779     17940
  15698.       40      9340   5005734      6719
  15699.       48      3676   1992688      3270
  15700.       56      2716   1306982      2579
  15701.       64       748    177914       173
  15702.       72      5660   1577037      5315
  15703.       80       204     18918         2
  15704.       88       988    836129       866
  15705.       96        92     17021        62
  15706.      104        60       422        52
  15707.      112         4       533         1
  15708.      120        12     11532         2
  15709.      128        28    661442         2
  15710.      136      2460    936209      2151
  15711.      144       124    894320        46
  15712.      152         4        95         0
  15713.      160        12        20         6
  15714.      168         4        35         0
  15715.      176        28      1252        15
  15716.      184         4      3679         2
  15717.      192         4      9846         1
  15718.      200         4      2400         0
  15719.      208         4      4200         0
  15720.      216        92      9689        82
  15721.      224         4       846         0
  15722.      232         4       500         0
  15723.      240         4       107         0
  15724.      248        12        56         3
  15725.      256        12        75         0
  15726.      264         4      1126         0
  15727.      280      1116     20053       126
  15728.      328      2460    915081      2152
  15729.     1536         4    611103         0
  15730.     4112        92     53106        80
  15731.    Total     97204  21129968     90363
  15732. Bytes allocated = 4940032, freed = 752664
  15733.  
  15734. Large object allocator:
  15735.    Total bytes managed: 1326440
  15736.    Bytes in use:        495040
  15737. Orig. Size       Num      Free    In Use
  15738.       1016         1         0         1
  15739.       2576         2         0         2
  15740.        336         1         0         1
  15741.        152         2         2         0
  15742.        528         5         1         4
  15743.        400         3         0         3
  15744.       1040        34        33         1
  15745.         64         1         1         0
  15746.        272         5         4         1
  15747.        768         1         1         0
  15748.        464         2         2         0
  15749.        424         2         0         2
  15750.       1048        26        26         0
  15751.         80         1         1         0
  15752.       1080         1         1         0
  15753.        232         1         1         0
  15754.      40976         2         0         2
  15755.       5912         2         0         2
  15756.         16         4         4         0
  15757.      12304         3         0         3
  15758.       1008         1         1         0
  15759.        352         4         4         0
  15760.        632         1         1         0
  15761.        992         1         1         0
  15762.        792         2         2         0
  15763.        320         3         3         0
  15764.        920         1         1         0
  15765.        784         1         0         1
  15766.        264         1         1         0
  15767.        520         1         1         0
  15768.        576         1         1         0
  15769.        344         1         1         0
  15770.       1528         1         1         0
  15771.        144         1         1         0
  15772.      49168         1         0         1
  15773.        312         2         2         0
  15774.        224         1         1         0
  15775.        304         1         1         0
  15776.  
  15777.  
  15778. The kernel crased with ``Vm_RawAlloc out of memory'' while it
  15779. was executing Net_InstallRoute().
  15780.  
  15781.  
  15782.  
  15783.  
  15784.  
  15785. 1591.
  15786. Date: Wed, 12 Sep 90 15:16:41 PDT
  15787. From: rab (Robert A. Bruce)
  15788. Subject: new kernel
  15789.  
  15790. The new kernel doesn't work on sun3's.  JohnH says it is because
  15791. of a compiler bug.
  15792.  
  15793.  
  15794.  
  15795. 1592.
  15796. Date: Thu, 13 Sep 90 14:39:08 PDT
  15797. From: Fred Douglis <douglis>
  15798. Subject: complaint about BUFSIZ
  15799.  
  15800. i tried making a change to proc and recompiling.  it gets an error
  15801. message because BUFSIZ is defined in both file.h and stdio.h.  i take
  15802. it stdio.h didn't used to be included by kernel files.  does anyone
  15803. know enough about this stuff to know if
  15804.  
  15805.     #ifdef KERNEL
  15806.     #ifndef NULL
  15807.     #define NULL 0
  15808.     #endif
  15809.     #define BUFSIZ 4096
  15810.     #define const
  15811.     #else
  15812.     #include <sprite.h>
  15813.     #include <stdio.h>
  15814.     #include <stdlib.h>
  15815.     #endif
  15816.  
  15817. can be replaced by 
  15818.  
  15819.     #include <sprite.h>
  15820.     #include <stdio.h>
  15821.     #include <stdlib.h>
  15822.  
  15823. ??
  15824.  
  15825.  
  15826.  
  15827.  
  15828.  
  15829. 1593.
  15830. Date: Fri, 14 Sep 90 18:02:42 PDT
  15831. From: Fred Douglis <douglis>
  15832. Subject: ranlib broken for ds3100???
  15833.  
  15834. i tried making a new libc debug library but got compiler errors when
  15835. trying to use it. it seems that ranlib is now a no-op.  actually, it
  15836. seems to hit a TLB fault, which looks like a no-op when run under
  15837. migration.  what gives?
  15838.  
  15839.  
  15840.  
  15841.  
  15842. 1594.
  15843. Date: Sun, 16 Sep 90 23:42:30 PDT
  15844. From: Mike Kupfer <kupfer>
  15845. Subject: telnet doesn't register user
  15846.  
  15847. If you telnet into sage, your login doesn't seem to get registered.
  15848. Certainly "finger" has no record of it.
  15849.  
  15850.  
  15851.  
  15852.  
  15853. 1595.
  15854. Date: Mon, 17 Sep 90 18:32:24 PDT
  15855. From: shirriff (Ken Shirriff)
  15856. Subject: Compiler bug.
  15857.  
  15858. libc/sun3.md/stdio won't compile because it chokes on math68881.h.
  15859. I'm compiling on a sun4.  The problem is in __asm definitions that use
  15860. floating point registers.  This only happens with the -msoft-float flag.
  15861. It dies with /sprite/src/lib/include/sun3.md/math-68881.h:364: inconsistent operand constraints in an `asm'
  15862.  
  15863.  
  15864.  
  15865.  
  15866. 1596.
  15867. Date: Mon, 17 Sep 1990 23:11:53 PDT
  15868. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  15869. Subject: cc broken
  15870.  
  15871. The new cc doesn't work right.  Every so often the name of the temporary
  15872. file passed to cpp is "/tmp.cpp" instead of "/tmp/cc123456.cpp".  This
  15873. causes cpp to exit with:
  15874.  
  15875. /sprite/cmds.sun4/cpp: /tmp.cpp: invalid argument
  15876.  
  15877.  
  15878.  
  15879.  
  15880.  
  15881. 1597.
  15882. Date: Tue, 18 Sep 90 09:34:07 PDT
  15883. From: Fred Douglis <douglis>
  15884. Subject: allspice sendmail catatonic
  15885.  
  15886. i noticed a distinct lack of mail, and i checked on allspice.  its
  15887. sendmail daemon was around but not responding.
  15888.  
  15889.  
  15890.  
  15891.  
  15892.  
  15893. 1598.
  15894. Date: Tue, 18 Sep 90 11:27:09 PDT
  15895. From: shirriff (Ken Shirriff)
  15896. Subject: sun3 compiler bug
  15897.  
  15898. The following program doesn't work on the sun3 when compiled with -O:
  15899.  
  15900. main()
  15901. {
  15902.     double d;
  15903.     d = 0.;
  15904.     printf("start: d = %f\n",d);
  15905.     printf("start: d = %f\n",d);
  15906.     if (d==0) printf("zero\n");
  15907. }
  15908.  
  15909. It outputs 0, then (NaN).  The problem is d is stored in register fp2,
  15910. which is trashed when the first printf returns.
  15911. The problem is either the compiler is incorrectly assuming fp2 is preserved,
  15912. or printf is incorrectly trashing fp2 (perhaps the assembly code in the
  15913. math library is wrong).  This problem predates my printf change and Bob's
  15914. compiler change yesterday.
  15915.  
  15916. I've examined the sun3 bug I reported earlier and the problem is that
  15917. register fp2 is getting destroyed during system calls.  Anyone know why
  15918. this would happen?
  15919.  
  15920.  
  15921.  
  15922.  
  15923.  
  15924. 1599.
  15925. Date: Tue, 18 Sep 1990 12:13:05 PDT
  15926. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  15927. Subject: pmake in background
  15928.  
  15929. If I stop a running pmake and put it in the background I get lots of
  15930. the following messages:
  15931.  
  15932. *** Stopped -- signal 11
  15933. --- sun3.md/netLE.o ---
  15934.  
  15935. I get many messages for the same file.  Eventually the machine crashed,
  15936. although I'm not sure if it is related.  Also, I got a few
  15937. "child not in table" messages.
  15938.  
  15939.  
  15940.  
  15941.  
  15942.  
  15943. 1600.
  15944. Date: Tue, 18 Sep 90 12:34:42 PDT
  15945. From: Mike Kupfer <kupfer>
  15946. Subject: "cc: not found" on sun3
  15947.  
  15948. When I run a make in a private test directory, I get the following:
  15949.  
  15950.   make loan
  15951.   cc -g  -c loan.c
  15952.   cc: not found
  15953.   *** Error code 1
  15954.  
  15955. If I use "pmake" instead of "make", it works. 
  15956.  
  15957.  
  15958.  
  15959.  
  15960.  
  15961. 1601.
  15962. Date: Tue, 18 Sep 90 16:42:44 PDT
  15963. From: Mike Kupfer <kupfer>
  15964. Subject: random "Error code 1" doing make on ds3100
  15965.  
  15966. I'm trying to rebuild the C library, using mustard.  It'll go for so
  15967. long, then I'll get something like:
  15968.  
  15969.   --- ds3100.md/Host_ByID.go ---
  15970.   cc  -O -Dds3100 -Dsprite -Uultrix  -I. -Ids3100.md -I/sprite/lib/include -I/sprite/lib/include/ds3100.md -g3 -c Host_ByID.c -o ds3100.md/Host_ByID.go
  15971.   *** Error code 1
  15972.  
  15973. No error message, just "error code 1".  If I rerun make, it gets past
  15974. this one and then quits someplace later.
  15975.  
  15976.  
  15977.  
  15978.  
  15979.  
  15980. 1602.
  15981. Date: Wed, 19 Sep 90 09:13:35 PDT
  15982. From: ouster (John Ousterhout)
  15983. Subject: Allspice crash
  15984.  
  15985. When I came in this morning Allspice was wedged up printing continuous
  15986. messages on its console about writebacks dropped, mostly from client
  15987. 44 (our old friend mustard) but also some from 57 (clove).  I couldn't
  15988. get any response at all from the console, so I reset it and rebooted.
  15989.  
  15990. By the way, when allspice rebooted piracy reopened 1335 handles, even though
  15991. it had no window system running and no processes at all except login
  15992. and possibly migrated processes.  Does anyone have any idea why so many
  15993. handles would be reopened?  Could this be related to the pipe handle
  15994. leak we were (are?) experiencing?
  15995.  
  15996. P.S. Allspice is now running 1.075, the new kernel compiled by Mendel
  15997. last week.
  15998.  
  15999.  
  16000.  
  16001.  
  16002. 1603.
  16003. Date: Wed, 19 Sep 90 10:46:50 PDT
  16004. From: shirriff (Ken Shirriff)
  16005. Subject: X messed up
  16006.  
  16007. X has suddenly stopped accepting DISPLAY="sprite:0" and I must use
  16008. "violence:0".  With display "sprite:0" I get the message
  16009.   Tx quitting: couldn't find display (missing DISPLAY environment variable?).
  16010. So what's changed since yesterday?
  16011.  
  16012.  
  16013.  
  16014.  
  16015.  
  16016. 1604.
  16017. Date: Wed, 19 Sep 90 10:52:18 PDT
  16018. From: gibson (Garth Gibson)
  16019. Subject: Background simulations
  16020.  
  16021. Although pmake/mig have helped get my simulations done, they fail routinely.
  16022. Last night I left a collection of simulations running on sun4s and a different
  16023. collection running on ds3100s.  This morning little more is done than when I
  16024. left.  One the sun4 side, the pmake host crashed during the night.  This is
  16025. the second time in 24 hours that a sun4 pmake host has crashed running my
  16026. simulations.  On the ds3100 side, pmake and all its children are suspended,
  16027. apparently waiting for an idle machine (there are of course lots of idle
  16028. machines including the pmake host).
  16029.  
  16030. I will restart simulations soon and check them periodically.  If I
  16031. constantly babysit, I have found that I can get alot of work done.  And it
  16032. is still easier than directly running jobs on 10-20 machines.
  16033.  
  16034.  
  16035.  
  16036.  
  16037.  
  16038. 1605.
  16039. Date: Wed, 19 Sep 90 10:57:17 PDT
  16040. From: Fred Douglis <douglis>
  16041. Subject: Re: Background simulations 
  16042.  
  16043. as i mentioned to garth in a separate note, i think the reason for
  16044. pmake locking up is allspice's crash.  the migration daemon was
  16045. screwed up in some fashion -- e.g., this morning after allspice returned, i
  16046. got an error from finger "cannot open migration database". 
  16047.  
  16048. as for the sun4s crashing, this was reported a while ago and i don't
  16049. think anything has changed.
  16050.  
  16051.  
  16052.  
  16053.  
  16054.  
  16055. 1606.
  16056. Date: Wed, 19 Sep 90 12:03:30 PDT
  16057. From: elm (ethan miller)
  16058. Subject: process eviction
  16059.  
  16060. For some reason, process don't get evicted from my sparcstation when I
  16061. start to use the keyboard; I have to explicitly evict them.  This has
  16062. happened several times recently with Garth's background simulations.
  16063.  
  16064.  
  16065.  
  16066.  
  16067.  
  16068. 1607.
  16069. Date: Wed, 19 Sep 90 15:24:13 PDT
  16070. From: Fred Douglis <douglis>
  16071. Subject: race condition when evicting processes
  16072.  
  16073. ethan confirmed that this might be the problem.
  16074.  
  16075. >>>>> On Wed, 19 Sep 90 14:35:29 PDT, Fred Douglis <douglis> said:
  16076.  
  16077. >> a thought about eviction.  when you had trouble, was it right after
  16078. >> you were idle for 30 seconds and then became active?  i wonder if
  16079. >> there's a race condition, where you evict one process that moves onto
  16080. >> your machine and then the remaining processes (e.g., "Reli") move onto
  16081. >> your host after the eviction has taken place.  then you have to go 30
  16082. >> seconds idle again before another eviction is attempted.   
  16083.  
  16084. so, this is a bit of a problem.  even though pmake will find out the
  16085. host was reclaimed, it won't touch the remote processes until they get
  16086. evicted.  
  16087.  
  16088. another case for more integration between the migration mechanism and
  16089. the load sharing policy.  the kernels don't know when a process is or
  16090. is not permitted to migrate onto them. they should.
  16091.  
  16092.  
  16093.  
  16094.  
  16095. 1608.
  16096. Date: Wed, 19 Sep 90 15:31:01 PDT
  16097. From: rab (Robert A. Bruce)
  16098. Subject: king
  16099.  
  16100. King doesn't recognize any outside hosts.  When it boots it, the
  16101. rdate to ohm fails, and it complains that king.Berkeley.EDU is
  16102. not in the hostname database.  The nameserver is zworykin, and it
  16103. is up.  Bootp doesn't work.  Ping does not work, even when king
  16104. tries to ping itself it gets 100% packet loss.
  16105.  
  16106. I updated all the commands this week, but this problem already
  16107. existed before that.  There doesn't seem to be anything wrong with
  16108. /etc/hosts or /etc/spritehosts.
  16109.  
  16110. Does anybody have any ideas about what could be wrong?
  16111.  
  16112.  
  16113.  
  16114.  
  16115.  
  16116. 1609.
  16117. Date: Thu, 20 Sep 90 15:43:15 PDT
  16118. From: elm (ethan miller)
  16119. Subject: spritemon bug
  16120.  
  16121. I'm running spritemon (for CPU utilization) on my sparcStation, and it
  16122. dies quite often.  The error message that shows up in my syslog is:
  16123. MachPageFault: Bus error in user proc 53e31, PC = 95b5f7b4, addr = 95b5f7bc BR Reg 80
  16124.  
  16125. It probably won't hurt things seriously, but I like having a CPU spritemon
  16126. around.
  16127.  
  16128.  
  16129.  
  16130.  
  16131.  
  16132. 1610.
  16133. Date: Thu, 20 Sep 90 15:59:32 PDT
  16134. From: shirriff (Ken Shirriff)
  16135. Subject: bootp foiling ds3100 boots
  16136.  
  16137. I looked into why my ds3100 boots were failing and the problem was
  16138. in the bootp log: recfrom failed: stale remote file handle.
  16139. This means FS_STALE_HANDLE, FS_VERSION_MISMATCH, or FS_NOT_CACHEABLE.
  16140. Any socket gurus know why this would happen?  Allspice hasn't been
  16141. rebooted lately.  The relevant socket was opened with
  16142. socket(AF_INET, SOCK_DGRAM, 0) on port 67.
  16143.  
  16144. My suggestion is that if bootp gets a stale handle it should restart.
  16145.  
  16146.  
  16147.  
  16148.  
  16149. 1611.
  16150. Date: Thu, 20 Sep 90 17:53:36 PDT
  16151. From: Mike Kupfer <kupfer>
  16152. Subject: problems attaching for debugging on sun4 
  16153.  
  16154. I tried to attach Ethan's dead spritemon on Terrorism (a SPARCstation)
  16155. and kept getting complaints from gdb:
  16156.  
  16157.   Reading symbol data from /X11/R4/src/cmds/spritemon/sun4.md/spritemon...done.
  16158.   Type "help" for a list of commands.
  16159.   (gdb) attach 0x53e4b
  16160.   Attaching program: /X11/R4/src/cmds/spritemon/sun4.md/spritemon pid 343627
  16161.   0x95b5f7b4 in ?? ()
  16162.   (gdb) where
  16163.   #0  0x95b5f7b4 in ?? ()
  16164.   Error reading memory address 0x0: invalid argument (22).
  16165.  
  16166. This is even after I reinstalled spritemon to make sure I had an
  16167. up-to-date binary.  Ideas, anyone?
  16168.  
  16169.  
  16170.  
  16171.  
  16172.  
  16173. 1612.
  16174. Date: Thu, 20 Sep 90 18:14:29 PDT
  16175. From: mendel (Mendel Rosenblum)
  16176. Subject: Re: problems attaching for debugging on sun4
  16177.  
  16178. The problem is spritemon jumped off to the address 0x95b5f7b4 which is not
  16179. valid.  The real backtrace looks something like:
  16180.  
  16181. 0x3f84 <main+3364>:    call 0x13ad8 <XtMainLoop>
  16182. 0x13ae4 <XtMainLoop+12>:    call 0x13af8 <XtAppMainLoop>
  16183. 0x13b08 <XtAppMainLoop+16>:    call 0x1b930 <XtAppNextEvent>
  16184. 0x1b97c <XtAppNextEvent+76>:    call 0x1b660 <XtRemoveInput+448>
  16185. 0x1b7a0 <XtRemoveInput+768>:    jumpl o2,g0,o7
  16186. 0x7a60 <XawPanedAllowResize+1328>:    call 0x7e88 <XawPanedAllowResize+2392>
  16187. 0x7f0c <XawPanedAllowResize+2524>:    call 0x460d0 <bcopy>
  16188.  
  16189. Something like this can happen if a program overwrites its stack.
  16190.  
  16191.  
  16192.  
  16193.  
  16194.  
  16195. 1613.
  16196. Date: Fri, 21 Sep 90 12:25:55 PDT
  16197. From: mgbaker (Mary Gray Baker)
  16198. Subject: migrated process/floating point problem
  16199.  
  16200. Terrorism just crashed with the panic in MachUserAction():
  16201.                panic(
  16202.     "Floating point exception with bad trap code, fsr = 0x%x\n",
  16203.                     machStatePtr->trapRegs->fsr);
  16204.  
  16205. This occurs when there is an impending fp exception but then no exception
  16206. is found.  This seems to have happened periodically with migrated processes.
  16207. The process in this case was
  16208.  
  16209.     "Reli -i 100 -I 5000 -c 95 -w .1 -o 2 -n 1 -g 17 -l 2e-06 -r 2 -u 2e-05 -v 0.01389 -x 1 -d 24 -L 3 -b 0.00157603 -m 0 -M 0 ", 
  16210.  
  16211.  
  16212.  
  16213.  
  16214.  
  16215.  
  16216. 1614.
  16217. Date: Fri, 21 Sep 90 14:28:31 PDT
  16218. From: Mike Kupfer <kupfer>
  16219. Subject: mkmf presumption (whining)
  16220.  
  16221. mkmf thinks it can tell whether you've got a command or a library, and
  16222. there's no way (or at least no documented way that I can see) to tell
  16223. it which prototype Makefile to use when it guesses wrong--which seems
  16224. to happen frequently.
  16225.  
  16226.  
  16227.  
  16228.  
  16229.  
  16230. 1615.
  16231. Date: Fri, 21 Sep 90 15:46:59 PDT
  16232. From: Mike Kupfer <kupfer>
  16233. Subject: sprintf and vsprintf return wrong thing
  16234.  
  16235. sprintf() and vsprintf() currently return the buffer string (that was
  16236. passed in).  In the ANSI world, these routines are supposed to return
  16237. the number of characters that were put into the string.
  16238.  
  16239. The fix seems simple enough, but I wonder how much user code we'd
  16240. break if we did it.  Is there a plan for making non-critical
  16241. user-visible incompatible changes at regular times?
  16242.  
  16243.  
  16244.  
  16245.  
  16246.  
  16247. 1616.
  16248. Date: Fri, 21 Sep 90 15:53:50 PDT
  16249. From: ouster (John Ousterhout)
  16250. Subject: Re: sprintf and vsprintf return wrong thing
  16251.  
  16252. The problem is that ANSI C and BSD disagree on this.  So far
  16253. we've stayed with BSD.  I agree that we should switch to ANSI
  16254. at some point, but it would be nice to do it late, so that
  16255. other people get to find and fix all the programs that depend
  16256. on the old conventions.
  16257.  
  16258.  
  16259.  
  16260.  
  16261. 1617.
  16262. Date: Fri, 21 Sep 90 16:08:53 PDT
  16263. From: Mike Kupfer <kupfer>
  16264. Subject: Re: sprintf and vsprintf return wrong thing 
  16265.  
  16266. Well, for this specific case BSD is in fact switching to "int
  16267. sprintf()" (that's what's on okeeffe, monet, and arpa these days).  
  16268.  
  16269. In the general case, staying with old BSD declarations will cause
  16270. increasing problems as more ANSI user code is written.  We'll avoid
  16271. some hassles as long as function prototypes are turned off for user
  16272. code, but we might still get bit by, say, int -> void changes for
  16273. signal handlers.  The problem is that we're using "__STDC__" to mean
  16274. "supports function prototypes".  This is an incorrect use of the
  16275. symbol.  "__STDC__" is supposed to mean "is ANSI compliant".
  16276.  
  16277.  
  16278.  
  16279.  
  16280. 1618.
  16281. Date: Fri, 21 Sep 90 15:54:22 PDT
  16282. From: shirriff (Ken Shirriff)
  16283. Subject: Mail got trashed
  16284.  
  16285. My mail file just got trashed.  A few bytes got truncated from the start
  16286. of Mike's mail message, so it got appended to the previous message
  16287. and starts:
  16288.     ntf return wrong thing
  16289.     Date: Fri, 21 Sep 90 15:46:59 PDT
  16290.     From: Mike Kupfer <kupfer>
  16291.  
  16292.  
  16293.  
  16294.  
  16295.  
  16296. 1619.
  16297. Date: Fri, 21 Sep 90 17:46:41 PDT
  16298. From: rab (Robert A. Bruce)
  16299. Subject: profiling on ds3100's (whining)
  16300.  
  16301. The profiling startup code, /usr/lib/mcrt0.o1.31, apparently mucks
  16302. around with the internals of atexit().  Since the Sprite library uses
  16303. different names for atexit() internals, the procedure that writes
  16304. out the profiling data never gets called.  Is there any way we can get
  16305. source code for the ds3100 startup code?
  16306.  
  16307.  
  16308.  
  16309.  
  16310.  
  16311. 1620.
  16312. Date: Fri, 21 Sep 90 17:52:07 PDT
  16313. From: Mike Kupfer <kupfer>
  16314. Subject: ld lies about who wants undefined external (sun3)
  16315.  
  16316. I was trying to build a kernel and was getting told
  16317.  
  16318.   sun3.md/dbgMain.c:1268: Undefined symbol _DbgComplain referenced from text segment
  16319.  
  16320. This is a lie.  It's sun3.md/dbgTrap.s that wants _DbgComplain.
  16321.  
  16322.  
  16323.  
  16324.  
  16325. 1621.
  16326. Date: Sun, 23 Sep 90 21:08:41 PDT
  16327. From: Mike Kupfer <kupfer>
  16328. Subject: sage Pmeg thrashing (whining)
  16329.  
  16330.  
  16331. Sage got a serious case of the slows.  Fred looked at it briefly and
  16332. thought it was "Pmeg thrashing" (which somebody should explain to me
  16333. some time - what's a Pmeg?).  Rebooting cured the problem, but X and
  16334. the printer suffered greatly until this was done.
  16335.  
  16336.  
  16337.  
  16338.  
  16339.  
  16340. 1622.
  16341. Date: Sun, 23 Sep 90 21:38:10 PDT
  16342. From: Mike Kupfer <kupfer>
  16343. Subject: kdbx man page SYNOPSIS is useless
  16344.  
  16345. It documents non-existent options and fails to document the correct
  16346. options.  One wonders what other parts of the man page are inaccurate.
  16347.  
  16348.  
  16349.  
  16350.  
  16351.  
  16352. 1623.
  16353. Date: Mon, 24 Sep 90 14:28:00 PDT
  16354. From: Mike Kupfer <kupfer>
  16355. Subject: sun3 net module broken?
  16356.  
  16357. I can't boot a sun3 kernel using the uninstalled sources.  It
  16358. appears to initialize the ethernet card and then goes into the
  16359. debugger.  John H. suggests that the net module may be broken.  Anyone
  16360. know what the scoop is?
  16361.  
  16362.  
  16363.  
  16364.  
  16365.  
  16366. 1624.
  16367. Date: Mon, 24 Sep 90 15:53:24 PDT
  16368. From: Mike Kupfer <kupfer>
  16369. Subject: ds3100 booting weirdness
  16370.  
  16371. Why is that that when I boot a ds3100, sometimes I have to say
  16372. "ds3100.md/foo" and other times I have to say just "foo"?  (I
  16373. notice that the bootplog doesn't show the fact that I booted mustard a
  16374. couple times over the weekend.  Are there multiple bootp's running
  16375. around or something?)
  16376.  
  16377.  
  16378.  
  16379.  
  16380.  
  16381. 1625.
  16382. Date: Mon, 24 Sep 90 16:58:12 PDT
  16383. From: shirriff (Ken Shirriff)
  16384. Subject: Re: ds3100 booting weirdness
  16385.  
  16386. The easy solution for the dec booting sequence is to always type "init"
  16387. before booting.
  16388. The complete answer is that if the decstation doesn't know who is the
  16389. tftp server, "boot -f tftp()foo" will work, but if it does know
  16390. who is the server, "ds3100.md/foo" is necessary.  The decstation
  16391. knows who is the server if it has started booting something already and
  16392. hasn't had "init" typed.  To see what it thinks is the server, type
  16393. "printenv" at the prom.  There's a variable it defines with the address
  16394. of the server if it knows who it is.
  16395.  
  16396.  
  16397.  
  16398.  
  16399. 1626.
  16400. Date: Tue, 25 Sep 90 16:45:40 PDT
  16401. From: Mike Kupfer <kupfer>
  16402. Subject: fgrep loses on metacharacters
  16403.  
  16404.   echo "fooah" | fgrep foo.h
  16405.  
  16406. returns
  16407.  
  16408. fooah
  16409.  
  16410. when it should return nothing.  (Even if fgrep and grep share the same
  16411. implementation, the fgrep interface should be different, so that one
  16412. doesn't have to screw around with escaping metacharacters.)
  16413.  
  16414.  
  16415.  
  16416.  
  16417. 1627.
  16418. Date: Tue, 25 Sep 90 16:48:51 PDT
  16419. From: shirriff (Ken Shirriff)
  16420. Subject: Re: fgrep loses on metacharacters
  16421.  
  16422. I just made fgrep a symbolic link to grep, since various shar archives
  16423. expected fgrep to exist.  Thus, as the man page says:
  16424.     fgrep is an alias for grep.
  16425.  
  16426.  
  16427.  
  16428.  
  16429.  
  16430. 1628.
  16431. Date: Wed, 26 Sep 90 11:11:27 PDT
  16432. From: mendel (Mendel Rosenblum)
  16433. Subject: Device #3 kills Sprite
  16434.  
  16435. I made the mistake of creating a device with the major number of 3 on the
  16436. Sprite cluster in cory.  Stat'ing this device causes the kernel to jump to
  16437. location 0 on both the ds3100 and the sun4. The problem is due to some
  16438. garbage left over from an aborted attempt to stuff the ipServer into the 
  16439. kernel. I've correctly this problem I my copy of the file system. Until this
  16440. gets installed, avoid typing typing ls or stat'ing any files in /dev/ over
  16441. in cory.
  16442.  
  16443.  
  16444.  
  16445.  
  16446.  
  16447. 1629.
  16448. Date: Wed, 26 Sep 90 13:19:25 PDT
  16449. From: mendel (Mendel Rosenblum)
  16450. Subject: Sprite in Cory problems
  16451.  
  16452. Sprite in Cory really sucks.  Here are some of the problems:
  16453.  
  16454. 1) Sprite RPC over INET routes didn't work to evans because /etc/spritehosts
  16455.    has the wrong ethernet address for the gateway machine. This wrong address
  16456.    also broke the ipServer routing. I've fixed this.
  16457.  
  16458. 2) Sprite RPC over INET routes doesn't work  on machines with the wrong byte
  16459.    order such as ds3100.  The problem here was the Host_* library was changed
  16460.    to return the inet address of a host in host byte order rather than
  16461.    network byte order.  Netroute (which uses the Host_* library) wasn't
  16462.    changed.  I've fixed and installed a new netroute.
  16463.  
  16464. 3) Kernel resident inet address of a machine doesn't get set explictly 
  16465.    by the Sprite boot scripts.  This doesn't cause problems in evans because
  16466.    the machines RARP and get the response from SunOS machines. There are
  16467.    no machines that reply to the RARP in cory.  This causes all the INET 
  16468.    routes to not work.  I added an explict "netroute -s" command to 
  16469.    bootcmds in cory.  
  16470.  
  16471. 4) The ipServer doesn't work correctly because there is no gateway host
  16472.    to bounce packets off.  This means it can't talk to any local net hosts not
  16473.    in the /etc/spritehosts.  Putting local host in /etc/spritehosts is a
  16474.    bad idea because Sprite starts to ARP/RARP for them.  This requires adding
  16475.    ARP to the ipServer.
  16476.  
  16477. 5) X servers don't work over there.  X11 R4 is not present and X11 R3 doesn't
  16478.    appear to work. 
  16479.  
  16480. 6) There is no Sun machine running Sprite in Cory other than raid2.  These
  16481.    means we have to debug raid2 from evans.  
  16482.  
  16483.  
  16484.  
  16485.  
  16486.  
  16487. 1630.
  16488. Date: Wed, 26 Sep 90 15:42:12 PDT
  16489. From: Mike Kupfer <kupfer>
  16490. Subject: Eng. Manual: imported programs with multiple targets
  16491.  
  16492. The Engineering Manual (section 4.4) should say something about
  16493. imported code with multiple targets (e.g., RCS).  Without looking at
  16494. existing examples, one might think that the correct (or at least, a
  16495. workable) way to install the code is
  16496.  
  16497.   /sprite/src/cmds/rcs/{rcs,ci,co,rcsdiff}
  16498.  
  16499. when in fact the correct way (and apparently the only way that mkmf
  16500. understands) is
  16501.  
  16502.   /sprite/src/cmds/{rcs,ci,co,rcsdiff}
  16503.  
  16504. (with the usual symbolic links in "ci" et al.)
  16505.  
  16506.  
  16507.  
  16508.  
  16509.  
  16510. 1631.
  16511. Date: Thu, 27 Sep 90 10:35:34 PDT
  16512. From: mendel (Mendel Rosenblum)
  16513. Subject: Recovery reopens deleted files
  16514.  
  16515. The bug is that clients to recovery on delete files. The recovery systems 
  16516. seems to recovery every handle that a client has. Because the system doesn't 
  16517. explictly frees handles of files that are delete, clients reopen delete files.
  16518. This seems really silly to me.   It's also very wasteful. It causes more
  16519. RPCs at recovery time and loads the server down doing bogus reopens. 
  16520. If file number of the delete file has been reused, the client delete 
  16521. handle will be transformed into a handle for this new file wasting space
  16522. on both the server and client. Mary said she would fixed when she upgrades 
  16523. the recovery system. 
  16524.  
  16525.  
  16526.  
  16527.  
  16528.  
  16529. 1632.
  16530. Date: Thu, 27 Sep 1990 14:23:59 PDT
  16531. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  16532. Subject: restore broken
  16533.  
  16534. The last two times I've tried to restore something I've gotten the
  16535. following error:
  16536.  
  16537. restore -f /hosts/allspice/dev/exabyte -v /sprite/src/kernel/mach.jhh
  16538. opening /hosts/allspice/dev/exabyte as archive file
  16539. rewinding tape ...
  16540. done rewinding tape.
  16541. reading tape label
  16542. rewinding tape ...
  16543. done rewinding tape.
  16544. Using tape #23
  16545. TapeLabel=|SPRITE DUMP TAPE #23
  16546. 023 01 0  463316509  Tue Sep 25 02:44:13 1990  /sprite/src
  16547. 023 02 0  546856002  Tue Sep 25 03:52:28 1990  /sprite/src/kernel
  16548. 023 03 0  209930669  Tue Sep 25 05:02:50 1990  /c
  16549. 023 04 0  253712785  Tue Sep 25 06:26:47 1990  /b
  16550. 023 05 0  256980001  Tue Sep 25 07:55:22 1990  /X11
  16551. 023 06 0  389326483  Tue Sep 25 08:47:44 1990  /scratch3
  16552. |
  16553. Using file #2
  16554. skipping 2 files
  16555. rewinding tape ...
  16556. done rewinding tape.
  16557. successfully skipped 2 files
  16558. successfully forked tar
  16559. tar.gnu: Hmm, this doesn't look like a tar archive.
  16560. tar.gnu: Skipping to next file header...
  16561.  
  16562.  
  16563.  
  16564.  
  16565. 1633.
  16566. Date: Thu, 27 Sep 90 15:31:46 PDT
  16567. From: joel (Joel A. Fine)
  16568. Subject: Possible sprite/ultrix incompatibility
  16569.  
  16570. I am trying to run a couple of window-based programs that I copied over
  16571. from a decstation running Ultrix to one running Sprite. At first, I got
  16572. the following error:
  16573.  
  16574. getsvc: stat of /etc/svc.conf failed
  16575. getsvc: stat failed: No such file or directory
  16576. X Toolkit Error: Can't Open display
  16577.  
  16578. There was no file called /etc/svc.conf on the Sprite machine, so I copied
  16579. that file from the Ultrix machine (I hope that doesn't cause any wierd
  16580. side effects) and am now getting Segmentation Violations, with the
  16581. following message going to my syslog:
  16582.  
  16583. Bad user TLB fault in process 4838: pc=554554 adr=0
  16584.  
  16585. The programs are in /r1/joel. Anything starting with dx (dxcalc, dxcalendar,
  16586. etc.) in this directory exhibit this problem.
  16587.  
  16588. Does anyone have any ideas on why this happens, and what can be done to
  16589. correct it? I don't think the source code is available for these programs,
  16590. so it may be tough to figure out.
  16591.  
  16592.  
  16593.  
  16594.  
  16595.  
  16596. 1634.
  16597. Date: Fri, 28 Sep 90 10:33:00 PDT
  16598. From: ouster (John Ousterhout)
  16599. Subject: Mail problems
  16600.  
  16601. Mail doesn't seem to be getting into Sprite, and "mailq" shows a bunch
  16602. of jobs apparently stuck in the outgoing mail queue.  Does anyone
  16603. (besides our dear departed Fred) know how to fix these problems?  I've
  16604. tried restarting sendmail on Allspice but that doesn't seem to have
  16605. fixed either problem.
  16606.  
  16607.  
  16608.  
  16609.  
  16610. 1635.
  16611. Date: Fri, 28 Sep 90 12:18:29 PDT
  16612. From: shirriff (Ken Shirriff)
  16613. Subject: Mail problems
  16614.  
  16615. I removed the lock files in /sprite/lib/mqueue and reran sendmail
  16616. (with sendmail -q).  This sent out mail stuck on sprite.  Sendmail
  16617. couldn't communicate with cory for some reason.
  16618.  
  16619. I tried to do this on ginger, but got:
  16620.  Connecting to allspice.berkeley.edu via tcpld...
  16621. Trying 128.32.150.27... Connection timed out during user open with allspice.berkeley.edu
  16622. bmiller@sprite.Berkeley.EDU... Deferred: Host allspice.berkeley.edu is down
  16623.  
  16624. so there seems to be something wrong between ginger and allspice.
  16625.  
  16626.  
  16627.  
  16628.  
  16629. 1636.
  16630. Date: Fri, 28 Sep 90 13:03:49 PDT
  16631. From: ouster (John Ousterhout)
  16632. Subject: Re: Mail problems
  16633.  
  16634. How about restarting all the daemons on Allspice to see if this
  16635. fixes the problem?  If this doesn't work, then I think we should
  16636. reboot Allspice.  Both Randy and I are expecting important mail,
  16637. so the problem needs to be fixed real soon (in the next hour or
  16638. two).
  16639.  
  16640.  
  16641.  
  16642.  
  16643. 1637.
  16644. Date: Fri, 28 Sep 90 13:42:54 PDT
  16645. From: Mike Kupfer <kupfer>
  16646. Subject: Re: Mail problems 
  16647.  
  16648. I killed off the ipServer (and inetd) on allspice, ran
  16649. /hosts/allspice/restartservers (and had to manually re-restart
  16650. sendmail).  Sendmail seems to be back in order, but I don't know how
  16651. to tell ginger's sendmail to process its queue now (instead of waiting
  16652. for the timeout to expire).
  16653.  
  16654.  
  16655.  
  16656.  
  16657. 1638.
  16658. Date: Sun, 30 Sep 90 09:59:37 PDT
  16659. From: ouster (John Ousterhout)
  16660. Subject: /sprite/lib/sendmail/aliases not handled right
  16661.  
  16662. I noticed this morning that /sprite/lib/sendmail/aliases
  16663. is writable by root and has been modified, contrary to the
  16664. instructions placed at the beginning of the file.  The
  16665. modifications are in the "sprite-users" alias:  the checked-in
  16666. version has "tandrews" as part of "sprite-users", while the modified
  16667. (but not checked out) version doesn't.  Could it be that the script
  16668. to remove a user is not handling the aliases file correctly?
  16669.  
  16670. P.S. By the way, I've checked in the change.
  16671.  
  16672.  
  16673.  
  16674. 1639.
  16675. Date: Mon, 1 Oct 90 12:57:38 PDT
  16676. From: mendel (Mendel Rosenblum)
  16677. Subject: swap server recovery deadlock
  16678.  
  16679. While testing LFS, I found the following deadlock that spans the proc, vm, 
  16680. and recov modules:
  16681.  
  16682. A shell was trying to exec a df command and took a page fault while trying
  16683. to copy the exec arguments to the stack. The page-in paused in DoPageAllocate
  16684. because the swap server was down. The stack looked like:
  16685.  
  16686. #0  0xf600c6f0 in Mach_ContextSwitch ()
  16687. #1  0xf60a3ff8 in SyncEventWaitInt (...) (...)
  16688. #2  0xf60a2a40 in Sync_SlowWait (...) (...)
  16689. #3  0xf60b269c in DoPageAllocate (...) (...)
  16690. #4  0xf60b2790 in VmPageAllocate (...) (...)
  16691. #5  0xf60b3290 in Vm_PageIn (...) (...)
  16692. #6  0xf600e5d4 in MachPageFault (...) (...)
  16693. #7  0xf6011320 in Vm_CopyOut ()
  16694. #8  0xf60814d8 in DoExec (...) (...)
  16695. #9  0xf60807d0 in Proc_Exec (...) (...)
  16696. #10 0xf608063c in Proc_ExecEnv (...) (...)
  16697.  
  16698. Note that the PCB of a processes is locked during the exec. 
  16699.  
  16700. When the swap server rebooted, the recovery module calls Fsutil_Reopen() which
  16701. executes the following code:
  16702.  
  16703.     /*
  16704.      * Kick all processes in case any are blocking on I/O
  16705.      */
  16706.     Proc_WakeupAllProcesses();
  16707.     /*
  16708.      * Tell VM that we have recovered in case this was the swap server.
  16709.      */
  16710.     Vm_Recovery();
  16711.  
  16712. Proc_WakeupAllProcesses() blocks because the PCB of the df process is 
  16713. locked. The df process is not continuted until Vm_Recovery() is called.
  16714. The swap server is marked as back up by the client.
  16715.  
  16716.  
  16717.  
  16718.  
  16719. 1640.
  16720. Date: Mon, 1 Oct 1990 21:50:41 PDT
  16721. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  16722. Subject: utils include files
  16723.  
  16724. The utils modules has a number of public header files, such as hash.h,
  16725. trace.h and now bf.h.  None of these are installed by "pmake installhdrs"
  16726. because mkmf thinks they are private because their name doesn't start with
  16727. "utils" as per the Sprite coding conventions.
  16728.  
  16729.  
  16730.  
  16731.  
  16732. 1641.
  16733. Date: Tue, 2 Oct 90 10:34:28 PDT
  16734. From: ouster (John Ousterhout)
  16735. Subject: Re: utils include files
  16736.  
  16737. I believe that there is a special mkmf variable you can set to
  16738. declare header files public even their names don't fit the normal
  16739. patterns for public header files.  Check the mkmf documentation
  16740. (or the .mk files) for details.  Perhaps it's called "PUBHDRS"?
  16741. I don't remember whether (a) you set it in local.mk before including
  16742. SYSMAKEFILE,  or (b) whether you add to it ("PUBHDRS += ...") after
  16743. including SYSMAKEFILE.
  16744.  
  16745.  
  16746.  
  16747.  
  16748. 1642.
  16749. Date: Tue, 2 Oct 90 12:16:55 PDT
  16750. From: mendel (Mendel Rosenblum)
  16751. Subject: /X11.old prefix change breaks sprite
  16752.  
  16753. Somehow, the prefix table on some of the machine that have been up since 
  16754. before the prefix change on allspice are incorrect.  For example from 
  16755. treason:
  16756.  
  16757. treason% prefix
  16758. Prefix               Server    Domain  File #  Version
  16759. /                    allspice      10       2        1 imported
  16760. /swap1               allspice       0       2        1 imported
  16761. /user3               (none)        -1      -1       -1 imported
  16762. /user1               allspice       2       2        1 imported
  16763. /X11                 allspice       9       2        1 imported
  16764. /user2               assault        0       2        1 imported
  16765. /c                   oregano        3       2        1 imported
  16766. /sprite/src          allspice       7       2        1 imported
  16767. /sprite/src/kernel   allspice       6       2        1 imported
  16768. /user4               assault        9       2        1 imported
  16769. /mic                 allspice       3       2        1 imported
  16770. /sprite/spool/msgs   oregano      776    3499        0 imported
  16771. /b                   oregano        4       2        1 imported
  16772. /local               allspice       8       2        1 imported
  16773. /X11.old             allspice       9       2        1 imported
  16774.  
  16775.  
  16776. Note that /X11 and /X11.old are the same prefix (<allspice,9,2>).  Combined
  16777. with migration, this can cause machines to crash.
  16778.  
  16779.  
  16780.  
  16781.  
  16782. 1643.
  16783. Date: Tue, 02 Oct 90 12:34:38 PDT
  16784. From: Mike Kupfer <kupfer>
  16785. Subject: chgrp as root failed
  16786.  
  16787. I found a source tree that was group "wheel" instead of "sprite".  I
  16788. su'd to root and did
  16789.  
  16790.   sage-4# chgrp -R sprite .
  16791.  
  16792. and I got back
  16793.  
  16794.   chgrp: You are not the owner of sh.func.c
  16795.   chgrp: You are not the owner of sh.func.c,v
  16796.  
  16797. If I'm root, why should chgrp care?
  16798.  
  16799.  
  16800.  
  16801.  
  16802. 1644.
  16803. Date: Tue, 2 Oct 90 13:18:00 PDT
  16804. From: ouster (John Ousterhout)
  16805. Subject: Re: /X11.old prefix change breaks sprite
  16806.  
  16807. I suspect that the problem is that Bob changed the name of a
  16808. domain without changing its partition, and that clients can
  16809. then get two prefixes with different names in their prefix
  16810. tables.  This seems like a bug, but I suspect that it may not
  16811. be easy to fix.
  16812.  
  16813.  
  16814.  
  16815.  
  16816. 1645.
  16817. Date: Tue, 2 Oct 1990 17:05:22 PDT
  16818. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  16819. Subject: rcsmerge
  16820.  
  16821. Rcsmerge sometimes screws up and fills the screen with '?' characters.
  16822. I think this is because 'ed' is being passed a bogus command script, but
  16823. I can't figure out why.  There is little chance of this being fixed,
  16824. but I just thought I'd report it.
  16825.  
  16826.  
  16827.  
  16828.  
  16829.  
  16830. 1646.
  16831. Date: Wed, 3 Oct 90 15:07:40 PDT
  16832. From: ouster (John Ousterhout)
  16833. Subject: Error code 16
  16834.  
  16835. When I run pmake on SPARCstations I'm getting fairly frequentt
  16836. "*** Error code 16" messages, which abort the compilation even
  16837. though there are no compiler errors.  Is anyone else getting these?
  16838. I don't suppose they could be related to the prefix change?  I'm
  16839. not compiling in an area whose prefix has changed.
  16840.  
  16841.  
  16842.  
  16843.  
  16844.  
  16845. 1647.
  16846. Date: Wed, 3 Oct 90 15:14:08 PDT
  16847. From: mendel (Mendel Rosenblum)
  16848. Subject: Re: Error code 16
  16849.  
  16850. I've gotten this error 16 too.  About the same time I got a syslog message of:
  16851.  
  16852. SigMigSend: process 4126e no longer migrated.
  16853.  
  16854.  
  16855.  
  16856.  
  16857.  
  16858. 1648.
  16859. Date: Thu, 4 Oct 90 09:26:42 PDT
  16860. From: ouster (John Ousterhout)
  16861. Subject: Floating-point crash
  16862.  
  16863. Mercenary crashed last night with the following error message:
  16864.  
  16865. Floating point exception with bad trap code, fsr = 0x68ba0
  16866.  
  16867. Is this the same floating-point error that we discussed at the
  16868. Sprite meeting this week?
  16869.  
  16870.  
  16871.  
  16872.  
  16873. 1649.
  16874. Date: Thu, 4 Oct 90 11:17:49 PDT
  16875. From: mendel (Mendel Rosenblum)
  16876. Subject: Re: Floating-point crash
  16877.  
  16878. This is more a migration problem than a floating-point problem but after a
  16879. week-long paid vacation to Hawaii I might be incline to take a look at it.
  16880.  
  16881. The problem caused by a combination of floating point exceptions, timer
  16882. interupts, and migration. Mike's program took a timer interrupt that 
  16883. signaled the end of its quantum while the FPU was crunching on a floating
  16884. point add with operands that the hardware didn`t like. The quantom expire
  16885. caused the process to be context switched with the context switch code 
  16886. noting the floating point exception and trap code.  While context switched 
  16887. someone (probably pmake) try to migrate the process.  The code in 
  16888. Mach_EncapState() resaves the floating point state from the FPU in the 
  16889. trap regs.  This is done because it can't tell if the FPU state was dumped or
  16890. not. Unfortunately it overwrites the pending FPU trap code. When the process
  16891. is restarted on the new system the kernel panics because the pending 
  16892. exception flag is set and the trap code says no trap. This error can only
  16893. happen when a context switch causing trap happens with a floating point 
  16894. exception pending in the FPU.
  16895.  
  16896. I've fixed Mach_EncapState() not to overwrite the trap code.
  16897.  
  16898.  
  16899.  
  16900.  
  16901. 1650.
  16902. Date: Thu, 4 Oct 90 19:04:12 PDT
  16903. From: dedood (Paul de Dood)
  16904. Subject: printer queue consistently jams
  16905.  
  16906. I seem to have the amazing ability to jam printer queues on -Pps.  I'm running
  16907. dvips sending it straight to the ps printer.  Could you please look into this,
  16908. as this is the only PostScript printer I have access to.
  16909.  
  16910.  
  16911.  
  16912.  
  16913.  
  16914. 1651.
  16915. Date: Thu, 4 Oct 90 19:23:54 PDT
  16916. From: dedood (Paul de Dood)
  16917. Subject: more printer queue problems
  16918.  
  16919. It seems that I mess up the printer queue with a lpr -d -Pdp, so I doubt
  16920. the problem is printer specific.
  16921.  
  16922.  
  16923.  
  16924.  
  16925.  
  16926. 1652.
  16927. Date: Fri, 5 Oct 90 13:27:22 PDT
  16928. From: elm (ethan miller)
  16929. Subject: raid1 crashed
  16930.  
  16931. Here's what it printed out; the kernel it was running was no longer
  16932. around so it couldn't be debugged.
  16933.  
  16934. FindComponent, no handle <0x4001b> for ".." fileNumber 127203
  16935. Fatal Error: handleRelease, handle <1,77,1,127204> "sun" not locked
  16936. Entering debugger with a interrupt trap (16) exception at pc 0xf60933d4
  16937.  
  16938. The error occurred just after I put a lot of files (~80MB) onto raid1,
  16939. had them copied to a Unix machine in cory, and deleted them.  "sun"
  16940. was the name of a subdirectory in /r1/tmc/bin (I did a /bin/rm -fr tmc
  16941. after the copy to giverny [Ken Lutz's machine] was done).
  16942.  
  16943. We rebooted it at 13:25 on 10/5/90.
  16944.  
  16945.  
  16946.  
  16947.  
  16948.  
  16949. 1653.
  16950. Date: Fri, 5 Oct 90 16:10:23 PDT
  16951. From: shirriff (Ken Shirriff)
  16952. Subject: Allspice crashed
  16953.  
  16954. Allspice crashed, apparently with a deadlock.  The symptoms were that
  16955. it was going through repeated recovery with subversion and its load
  16956. average was around 5.  Then everything wedged up.  Unfortunately,
  16957. my L1-i information function crashed allspice, and then shallot was
  16958. down, so I couldn't debug it.
  16959.  
  16960.  
  16961.  
  16962.  
  16963. 1654.
  16964. Date: Mon, 08 Oct 90 12:15:34 PDT
  16965. From: rab (Robert A. Bruce)
  16966. Subject: xinit on chisum
  16967.  
  16968. X runs fine on king, but when I try to run it on chisum, I get
  16969.  
  16970. chisum> xinit
  16971. giving up.
  16972. xinit:  connection refused (errno 61):  unable to connect to X server
  16973. chisum>
  16974.  
  16975.     -bob
  16976.  
  16977.  
  16978.  
  16979. 1655.
  16980. Date: Mon, 8 Oct 90 12:22:34 PDT
  16981. From: seth (Seth J. Teller)
  16982. Subject: gremlin can't draw small, thick circles
  16983.  
  16984. the latest sprite version of gremlin under X
  16985. cannot draw small (~2-3 pixel) diameter circles
  16986. using the thickest line style.  
  16987. also: gremlin cannot draw filled circles of
  16988. any size.  i'm not sure if this is a bug or a 
  16989. feature.
  16990.  
  16991.  
  16992.  
  16993. 1656.
  16994. Date: Mon, 08 Oct 90 15:20:57 PDT
  16995. From: rab (Robert A. Bruce)
  16996. Subject: Window Underflow
  16997.  
  16998. Sabotage just got a watchdog reset because of a window underflow.
  16999.  
  17000.  
  17001.  
  17002. 1657.
  17003. Date: Mon, 8 Oct 90 15:38:56 PDT
  17004. From: bmiller (Bob Miller)
  17005. Subject: msgs???
  17006.  
  17007. Did something happen to msgs.  For the last week or so, all I get back
  17008. is "No new messages," which is kinda hard to believe.
  17009.  
  17010.  
  17011.  
  17012. 1658.
  17013. Date: Tue, 9 Oct 90 10:53:42 PDT
  17014. From: ouster (John Ousterhout)
  17015. Subject: Sendmail dead?
  17016.  
  17017. Sendmail seems to be dead on Allspice again.  Can someone in Evans
  17018. hall restart Allspice's daemons?  This problem is happening too
  17019. frequently for my taste.  Perhaps it's time to starting thinking
  17020. about how to make this stuff more reliable.
  17021.  
  17022.  
  17023.  
  17024.  
  17025. 1659.
  17026. Date: Tue, 9 Oct 90 13:59:26 PDT
  17027. From: gibson@apathy.Berkeley.EDU (Garth Gibson)
  17028. Subject: Re:  excessive migration usage
  17029.  
  17030. > From dedood@sprite.Berkeley.EDU Tue Oct  9 12:44:19 1990
  17031. > Date: Tue, 9 Oct 90 12:44:42 PDT
  17032. > To: gibson@sprite.Berkeley.EDU
  17033. > Subject: excessive migration usage
  17034. > Last night and this morning I have been unable to migrate any of my
  17035. > processes because you have fully loaded every sun4 and ds3100 on the
  17036. > sprite network.  This seriously reduces my productivity.
  17037. > Is it necessary for you to use every machine for days, or is it possible
  17038. > for you to leave some machines available for the rest of us?
  17039. > Thanks,
  17040. > Paul.
  17041.  
  17042. My jobs are installed at the "background" level.  There are not supposed to
  17043. be able to stop compilation migration.  Each of my tasks requires a small
  17044. VM space so it should not exhaust swap space or induce thrashing.  The goal
  17045. of Fred Douglis' system was to make all idle cycles available to background
  17046. tasks while not interfering with interactive work.
  17047.  
  17048. While it is true that Fred did not introduce full "nice"-like scheduling
  17049. in the sprite system (so my jobs do get CPU time slices when a compile
  17050. migrates on top of them), he claims that I should not decrease the
  17051. parallelism available to compiles.  There are a couple of known bugs:
  17052. 1) after a series of remigrations because workstations come into use by
  17053. their primary user, up to 15 jobs can end up running on the host processor
  17054. when their should be suspended by pmake,
  17055. 2) pmake fail to notice some machines going idle after a series of
  17056. remigrations,
  17057. 3) if my pmake host processor is also being used by a busy human directly
  17058. in front of it, the process table sometimes overflows and it can be
  17059. difficult to get it out of this state (Mendel has used remote kernel
  17060. debugging to kill off a few processes).
  17061.  
  17062. Because of the first and second bug I check on my tasks every once in awhile
  17063. and use "mig -B -h .... -p ...." to spread clustered jobs to machines in the
  17064. "avail" state reported by rup.  These manual remigrations should also be at
  17065. the "background" level.
  17066.  
  17067. Because of the third bug I try to use, as hosts, machines that are less
  17068. frequently used directly by others.  My favorites are vagrancy and saffron
  17069. because they are in my office.  On the weekend saffron was down so I used
  17070. sassafras for a sun4 host.  This machine was suggested by Fred.
  17071.  
  17072. The way background pmake works is based on keeping all idle machines busy
  17073. at all times.  It is not easy for me to keep a few idle at all times
  17074. without using a very small subset at all times.
  17075.  
  17076. If you are using rsh to execute on a machine not directly in front of you,
  17077. then I believe Fred's scheme for determining "avail" status will not notice
  17078. you unless you keep the load average over 1.0.
  17079.  
  17080. It may be the case that Fred's system has more bugs than I know about.  In
  17081. that case my heavy use and your exasperation are exactly the debugging
  17082. that Sprite relies on.  Bugs in this system are sensitive to network-wide
  17083. activity so they are difficult isolate and recreate.  As John has said to
  17084. me about this before, "bang away".
  17085.  
  17086. In case you think me unrepentent, it is clear that my tasks should not be
  17087. allowed to interfere with your productivity.  While I would not like my
  17088. jobs killed arbitrarily, if you do so please inform me.  I don't think
  17089. that would solve your problem because pmake would migrate another of my
  17090. tasks onto your machine.  A simpler solution is to kill -STOP my job; pmake
  17091. will think it busy and should leave the machine alone (unless the machine
  17092. is "avail" and I manually migrate to it).  On the overkill side, you can
  17093. disallow all migration to a particular machine with "migcmd -I none"
  17094. (I have never used this, but I'm told it works).  The best solution would
  17095. be for background migration to work correctly, but that probably means
  17096. that it will have to run broken until Sprite gurus have the time to
  17097. debug it.
  17098.  
  17099.  
  17100.  
  17101.  
  17102. 1660.
  17103. Date: Tue, 09 Oct 90 16:45:23 PDT
  17104. From: Mike Kupfer <kupfer>
  17105. Subject: paranoia check for Vm_Cmd (whining)
  17106.  
  17107. It would be nice if Vm_Cmd would check the validity of its arguments. 
  17108. In particular, I made the mistake of doing "vmcmd -n 0", which brought
  17109. down sage when it tried to do a division by 0.
  17110.  
  17111.  
  17112.  
  17113.  
  17114. 1661.
  17115. Date:     Wed, 10 Oct 90 13:48:51 MET
  17116. From: douglis@cs.vu.nl
  17117. Subject:  inetd needs a kick
  17118.  
  17119. finger @sprite is getting "connection refused"....
  17120.  
  17121.  
  17122.  
  17123.  
  17124. 1662.
  17125. Date: Wed, 10 Oct 90 11:51:07 PDT
  17126. From: ouster (John Ousterhout)
  17127. Subject: Finger dead
  17128.  
  17129. I killed and restarted inetd on Allspice; this seems to have brought
  17130. "finger @allspice" back to life again.
  17131.  
  17132.  
  17133.  
  17134.  
  17135. 1663.
  17136. Date: Wed, 10 Oct 90 11:56:12 PDT
  17137. From: ouster (John Ousterhout)
  17138. Subject: Bug in new installroute?
  17139.  
  17140. When John Wawrzynek rebooted his DS3100 this morning with the "new"
  17141. kernel, he got a zillion messages about Net_InstallRoute failing
  17142. with a bad system call argument, or something like that.  The machine
  17143. seems to work fine, but the error message are a bit worrisome.  Could
  17144. this be related to the new version of installroute?
  17145.  
  17146.  
  17147.  
  17148.  
  17149. 1664.
  17150. Date: Wed, 10 Oct 90 12:24:13 PDT
  17151. From: dedood (Paul de Dood)
  17152. Subject: mail
  17153.  
  17154. When I got in this morning, my mailbox showed that I had mail.  However,
  17155. when I tried to enter "mail", I got the following message:
  17156. Warning: encountered nulls at 5.  Mail spool file may be damaged.
  17157. No mail for dedood
  17158.  
  17159.  
  17160.  
  17161.  
  17162. 1665.
  17163. Date: Wed, 10 Oct 90 12:31:20 PDT
  17164. From: shirriff (Ken Shirriff)
  17165. Subject: Re: mail
  17166.  
  17167. /usr/spool/mail/dedood contained 976 bytes of random garbage.  This is
  17168. probably from a 976 byte mail message sent from a machine just before it
  17169. crashed, before the data got written.  Bob, can you restore the previous
  17170. /usr/spool/mail/dedood from tape, if it contained anything?
  17171.  
  17172.  
  17173.  
  17174.  
  17175. 1666.
  17176. Date: Thu, 11 Oct 90 10:59:29 PDT
  17177. From: rab (Robert A. Bruce)
  17178. Subject: dump failed
  17179.  
  17180. The daily dump failed last night.  Only /user1 was dumped
  17181. successfully.
  17182.  
  17183. It was not a hardware problem.  It looks like allspice was running
  17184. slow.  /user1 took over 4 hours instead of the expected 10 or 20
  17185. minutes.  The next filesystem was still in progress when allspice
  17186. was rebooted this morning.
  17187.  
  17188.  
  17189.  
  17190.  
  17191.  
  17192. 1667.
  17193. Date: Thu, 11 Oct 90 11:00:56 PDT
  17194. From: ouster (John Ousterhout)
  17195. Subject: Allspice crash
  17196.  
  17197. Allspice was down when I came in this morning.  It was printing
  17198. continuous message of the following form:
  17199.  
  17200. client 52 dropped 30 write-back & invalidate requests for "johnw" <10,2237>
  17201.  
  17202. The console was lifeless:  <BREAK>-commands didn't do anything, and
  17203. when I attempted to run commands I got the message "no more processes".
  17204. At this point I rebooted Allspice.  100 minutes later, the system
  17205. finally got rebooted.  Here is a partial list of some of the problems
  17206. that occurred:
  17207.  
  17208. 1. Rebooting from Ginger was slow:  about 15 minutes to get the first
  17209. kernel image over.  I think this may have been due to clients bashing
  17210. on Ginger and confusing the TFTP protocol (many or all of the clients
  17211. were spewing continuous messages about interaction problems with
  17212. Allspice during the reboot).  Can someone move the current kernel to
  17213. the place on disk from which it can be booted, and change the sign
  17214. on Allspice's console?
  17215.  
  17216. 2. Allspice rebooted continuously in a never-ending loop.  There were
  17217. several reasons for this, detailed below.
  17218.  
  17219. 3. /local did not have a "lost+found" directory, causing fscheck to
  17220. abort on it.  Shouldn't fscheck create lost+found automatically?
  17221. Mendel and I tried to create lost+found manually, but found that
  17222. i-number 3 is already in use by the symbolic link /local/cmds.  Does
  17223. lost+found need to be inumber 3?  We thought it did, and also thought
  17224. cmds was a directory, so we mv-ed it to lost+found.  However, this
  17225. didn't work because cmds was really a symbolic link.  We eventually
  17226. fast-booted Allspice without fixing this problem.  It needs to be
  17227. fixed soon.  I've temporarily commented-out /local's line in
  17228. /hosts/allspice/mount, so that Allspice will (hopefully) be able to
  17229. boot if it should crash before the problem is fixed.  This means that
  17230. /local won't be available after future reboots.  How did /local get
  17231. created without a /lost+found directory?  This sounds like a bug
  17232. in the software that makes new filesystems.
  17233.  
  17234. 4. The booting scripts somehow got confused into thinking /local was
  17235. the root partition (could it have anything to do with the fact that
  17236. /local is on rsd10.0c?), so the above errors in /local caused Allspice
  17237. to reboot continuously.
  17238.  
  17239.  
  17240.  
  17241.  
  17242.  
  17243. 1668.
  17244. Date: Thu, 11 Oct 90 09:47:26 PDT
  17245. From: gibson@apathy.Berkeley.EDU (Garth Gibson)
  17246. Subject: floating point printf
  17247.  
  17248. In the last few weeks it looks like printf "%g" has changed again.
  17249. I'm not sure which machine type because my simulations were run on
  17250. both, but now NaN shows up as "(NaN)" - this is fine - but a
  17251. number that until recently printed fine is coming out "-.,0.,(e+15"
  17252.  
  17253.  
  17254.  
  17255.  
  17256. 1669.
  17257. Date: Thu, 11 Oct 1990 12:04:35 PDT
  17258. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  17259. Subject: boot sequence broken
  17260.  
  17261. The problems with allspice rebooting continuously are related to
  17262. the new boot sequence.   The kernel attempts to attach a list of
  17263. default disks as the root "/", then detachs them if they aren't
  17264. (based upon a few rules about the root disk).  This means that
  17265. those disks that are rejected end up with the name "/" in the
  17266. summary sector, which later on fools fsattach into thinking they
  17267. are the root disk, causing a reboot if fscheck fails on them.  I
  17268. think the best solution would be for the kernel to not modify the
  17269. summary sector (ie put back the old prefix when detaching), rather
  17270. than storing the wrong prefix.  I don't know how feasible this is.
  17271. The other alternative is to have fsattach determine the root disk
  17272. in a different manner.  If we use this method fscheck will still
  17273. print out the wrong name for the domain when it is checking the
  17274. disk (eg "/" instead of "/local").
  17275.  
  17276.  
  17277.  
  17278.  
  17279. 1670.
  17280. Date: Thu, 11 Oct 90 14:28:13 PDT
  17281. From: ouster (John Ousterhout)
  17282. Subject: Migration bugs?
  17283.  
  17284. The message below is from Paul de Dood about problems he had getting
  17285. machines for Pmake when Garth was running simulations.  I wonder if
  17286. perhaps migd was seeing high loads on the machines (because of Garth's
  17287. simulations) and declaring the machines to be "in use"?
  17288.  
  17289.  
  17290. >From dedood Thu Oct 11 14:06:54 1990
  17291. Date: Thu, 11 Oct 90 14:06:54 PDT
  17292. From: dedood (Paul de Dood)
  17293. To: ouster
  17294. Subject: Re: excessive migration usage
  17295.  
  17296. I tried two different types of migration:  pmake & mig -bv.
  17297. In the case of pmake, it was only executing a single compile at a time,
  17298. even though there were many files which could have been compiled simultaneously,
  17299. so I believe no processes were migrating.
  17300. In the case of mig -bv .... it said that no idle hosts were available.
  17301. A rup revealed that every sun4 & ds3100 either refused or was in use.
  17302. Each machine had a load average above 1, the only significant jobs being run
  17303. on the machines were all owned by gibson (about 4 processes/machine).  It
  17304. was 1 AM, so I know that the machines were not all being used (one was in
  17305. my sight, so I know it wasn't being used).
  17306.  
  17307.  
  17308.  
  17309.  
  17310.  
  17311. 1671.
  17312. Date: Thu, 11 Oct 90 14:30:22 PDT
  17313. From: Mike Kupfer <kupfer>
  17314. Subject: rpc lint
  17315.  
  17316. rpcCltStat.c:308: warning: `SpecialStat' defined but not used
  17317. rpcSrvStat.c:286: warning: `SpecialSrvStat' defined but not used
  17318.  
  17319. Both of these functions are static.  Are they kept around for
  17320. reference?  Should they be ifdef'd out, or deleted, or...?
  17321.  
  17322.  
  17323.  
  17324.  
  17325. 1672.
  17326. Date: Thu, 11 Oct 90 15:32:18 PDT
  17327. From: Mike Kupfer <kupfer>
  17328. Subject: lint in sun3 SCSI code
  17329.  
  17330. The table devCntrlr in sun3.md/devConfig.c yields the following
  17331. complaint from gcc:
  17332.  
  17333.   sun3.md/devConfig.c:53: warning: initialization between incompatible
  17334.   pointer types
  17335.  
  17336. Each entry in the table includes an interrupt routine.  The table
  17337. thinks the interrupt routine looks like
  17338.  
  17339.   Boolean (*intrProc) _ARGS_((ClientData  clientData));
  17340.  
  17341. However, the definition of DevSCSI0Intr is
  17342.  
  17343.   Boolean DevSCSI0Intr _ARGS_ ((ClientData clientData,
  17344.     List_Links *newRequestPtr));
  17345.  
  17346. Note the second argument.  I don't understand how all these fun
  17347. device tables hang together, so I'd rather that somebody else fix
  17348. this...
  17349.  
  17350.  
  17351.  
  17352.  
  17353.  
  17354. 1673.
  17355. Date: Thu, 11 Oct 90 16:02:00 PDT
  17356. From: Mike Kupfer <kupfer>
  17357. Subject: interrupt handler lint
  17358.  
  17359. Do interrupt handlers return ints?  The sun3 and sun4 versions of
  17360. Mach_SetHandler think they return ints.  At least one handler
  17361. (DevZ8530Interrupt, for the sun3) is declared as a void.  From looking
  17362. at sun[34].md/machIntr.s, I would say that "void" is correct.  Anyone
  17363. know the right answer?
  17364.  
  17365.  
  17366.  
  17367.  
  17368.  
  17369. 1674.
  17370. Date: Thu, 11 Oct 90 16:07:34 PDT
  17371. From: mendel (Mendel Rosenblum)
  17372. Subject: Re: interrupt handler lint
  17373.  
  17374. >Do interrupt handlers return ints?  The sun3 and sun4 versions of
  17375. >Mach_SetHandler think they return ints.  At least one handler
  17376. >(DevZ8530Interrupt, for the sun3) is declared as a void.  From looking
  17377. >at sun[34].md/machIntr.s, I would say that "void" is correct.  Anyone
  17378. >know the right answer?
  17379.  
  17380. They should return Boolean; TRUE if the interrupt handle dectected an
  17381. interrupt condition was present, FALSE otherwise. This is helpful in the
  17382. case you have many devices at the same interrupt priority and no interrupt
  17383. vectoring.  
  17384.  
  17385.  
  17386.  
  17387.  
  17388. 1675.
  17389. Date: Thu, 11 Oct 90 17:26:25 PDT
  17390. From: mendel (Mendel Rosenblum)
  17391. Subject: OFS file system writeback is braindead
  17392.  
  17393. The original Sprite file system cache writeback scheme has serious performance
  17394. problems.  A process is used per file being written to disk. These writeback
  17395. processes end up writing the files a block at a time in a roundrobin fashion.
  17396. Because the files themselves a placed randomly on disk, every disk write
  17397. requires a random seek.  If we limited the system to one writeback process
  17398. we would probably have a much higher write rate.   
  17399.  
  17400.  
  17401.  
  17402.  
  17403. 1676.
  17404. Date: Thu, 11 Oct 90 17:38:10 PDT
  17405. From: ouster (John Ousterhout)
  17406. Subject: Re: OFS file system writeback is braindead
  17407.  
  17408. I believe that Brent brain-killed the file system writeback in an
  17409. attempt to make it fairer, so that no one huge file could monopolize
  17410. the disk controller.
  17411.  
  17412.  
  17413.  
  17414.  
  17415. 1677.
  17416. Date: Thu, 11 Oct 90 18:20:18 PDT
  17417. From: shirriff (Ken Shirriff)
  17418. Subject: Re: floating point printf
  17419.  
  17420. There seem to be several things causing Garth's problems (on sun4c).
  17421. a) printf doesn't handle denormalized numbers, and gives garbage, because...
  17422. b) modf doesn't handle denormalized numbers, and gives garbage.
  17423.  
  17424. Garth gets denormalized numbers because
  17425. c) adding 0 and NaN doesn't work.  In Garth's case, it creates a
  17426. denormalized number: 0000000... + 7ffffff... -> 00000000ffffffff
  17427. In my test case, 0 + NaN -> 0
  17428.  
  17429. main()
  17430. {
  17431.     double a,b;
  17432.     a = 0;
  17433.     b = a/a;
  17434.     a += b;
  17435.     printf("a = %f, b = %f\n",a,b);
  17436. }
  17437. Output: a = 0.000000, b = (NaN)
  17438.  
  17439.  
  17440.  
  17441.  
  17442. 1678.
  17443. Date: Thu, 11 Oct 90 18:32:20 PDT
  17444. From: gibson@apathy.Berkeley.EDU (Garth Gibson)
  17445. Subject: Re: floating point printf
  17446.  
  17447. In addition to Ken's comments, the sun hardware can be made to
  17448. do the right thing because SunOS seems to have no problems with
  17449. my simulations.
  17450.  
  17451.  
  17452.  
  17453.  
  17454. 1679.
  17455. Date: Thu, 11 Oct 90 18:34:51 PDT
  17456. From: mendel (Mendel Rosenblum)
  17457. Subject: Re: floating point printf
  17458.  
  17459. >In addition to Ken's comments, the sun hardware can be made to
  17460. >do the right thing because SunOS seems to have no problems with
  17461. >my simulations.
  17462.  
  17463. This is false.  The "sun hardware" doesn't handle NaNs. It spits them out
  17464. to the software. 
  17465.  
  17466.  
  17467.  
  17468.  
  17469. 1680.
  17470. Date: Thu, 11 Oct 90 18:48:11 PDT
  17471. From: rab (Robert A. Bruce)
  17472. Subject: Re: floating point printf 
  17473.  
  17474. Once you get a NaN, I think you keep it.  There is nothing you can do
  17475. you can do to get rid of it.  Adding NaN to 0 should yeild a NaN.
  17476. So your example should print ``a = NaN, b = NaN''.
  17477.  
  17478. I tried running on a few different systems:
  17479.  
  17480. sparcStation, sunOS,  cc:     a = NaN, b = NaN
  17481. sparcStation, sunOS, gcc:     a = NaN, b = NaN
  17482. sun3, sprite, gcc:            a = (NaN), b = (NaN)
  17483. sparcStation, sprite, gcc:    a = 0.000000, b = (NaN)
  17484. sun4, sprite, gcc:            a = 0.000000, b = 0.000000
  17485. ds3100, sprite, cc:           a = (NaN), b = (NaN)
  17486. ds3100, sprite, gcc:          a = (NaN), b = (NaN)
  17487. ds3100, ultrix, cc:          a = NaN, b = NaN
  17488.  
  17489. It looks to me like there is a problem with the sun4s.  It is
  17490. especially weird that old sun4's give different answers than
  17491. sparcStations.
  17492.  
  17493. (I also think we should drop the parens around NaN, since neither
  17494. ultrix nor sunOS has them.)
  17495.  
  17496.  
  17497.  
  17498.  
  17499.  
  17500. 1681.
  17501. Date: Thu, 11 Oct 90 18:54:50 PDT
  17502. From: Mike Kupfer <kupfer>
  17503. Subject: Re: floating point printf 
  17504.  
  17505. Yes, NaN + x = NaN for all x.  According to the 68881 book, the 68881
  17506. distinguishes between "signalling" NaNs (which generate an exception
  17507. when used) and non-signalling NaNs (which don't).  Perhaps we're not
  17508. doing the trap handling correctly for signalling NaNs?
  17509.  
  17510.  
  17511.  
  17512.  
  17513.  
  17514. 1682.
  17515. Date: Thu, 11 Oct 90 23:52:30 PDT
  17516. From: shirriff (Ken Shirriff)
  17517. Subject: Re: floating point printf
  17518.  
  17519. I looked in the sun4 floating point simulation code
  17520. (mach/sun4.md/addsub.c) and it has code to handle both signalling
  17521. and non-signalling NaN's, with comments explicitly saying
  17522. "NaN + x -> Nan".  So it should be doing the right thing.
  17523.  
  17524.  
  17525.  
  17526.  
  17527.  
  17528. 1683.
  17529. Date: Fri, 12 Oct 90 10:49:32 +0100
  17530. From: Fred Douglis <douglis@cs.vu.nl>
  17531. Subject: migration load average
  17532.  
  17533. [the cc to the non-sprite folks is more to acknowledge the problem
  17534. than because they should read this whole thing...]
  17535.  
  17536. it sounds like the problem with migration is due to the load being
  17537. driven up for a long time.  the way that the migration daemons work is
  17538. that once they're allowing migration, they disable migration if the 5,
  17539. 10, or 15-minute load average is above some threshold.  currently
  17540. those thresholds are something like 1.5, 1.75, and 2.0 respectively.
  17541. once migration's disabled, it's enabled only when all three averages
  17542. are below some threshold (.75, 1, 1.5 right now).  the idea there is
  17543. that the short-term load shows that the load is definitely dropping
  17544. off again.  perhaps the 10 and 15 minute avgs could be ignored in that case.
  17545.  
  17546. the values for all these things are something i've played with off and
  17547. on for quite a while.  it seems to me that the high-end threshold used
  17548. to be in the reverse order (as well as lower), something like 1.5,
  17549. 1.25, 1.0.  i raised the threshold to try to keep simulations from
  17550. disabling migration, but i think i got the order wrong after all, so
  17551. it's easy for garth's simulations to get the 5-min load to 1.5 (with
  17552. the help of a couple of fluctuations in other processes), and then the
  17553. load never drops below .75 again. 
  17554.  
  17555. to conclude: how about if someone edits
  17556. /sprite/src/daemons/migd/migd.c to have values along the lines of
  17557.  
  17558.     #define THRESHOLD_HIGH0 2.5
  17559.     #define THRESHOLD_HIGH1    2.25
  17560.     #define THRESHOLD_HIGH2 2.0
  17561.  
  17562. the idea here is that once a machine is available for migration, it
  17563. would take a lot more load to keep it from being available again (bear
  17564. in mind it needs a very low load to be considered for migration in the
  17565. first place).  this also reverses the order again, which in retrospect
  17566. makes more sense to me. a spike in the load (5-min avg) should have to
  17567. be pretty high to disable migration, whereas a 15-min avg of 2 means
  17568. the machine is definitely pretty loaded, and probably by something
  17569. other than the 1 process that migrated onto it.  
  17570.  
  17571. ultimately, of course, the whole model needs to be generalized, and
  17572. more easily parameterizable.  
  17573.  
  17574.  
  17575.  
  17576.  
  17577. 1684.
  17578. Date: Fri, 12 Oct 90 14:29:17 +0100
  17579. From: Fred Douglis <douglis@cs.vu.nl>
  17580. Subject: mailq
  17581.  
  17582. while checking on the state of some mail to myself from berkeley to
  17583. here, i noticed a whole lot of locked files in the sendmail queue from
  17584. yesterday morning (i guess when sendmail crashed).  thought you might
  17585. want to know.
  17586.  
  17587.  
  17588.  
  17589.  
  17590. 1685.
  17591. Date: Fri, 12 Oct 90 09:35:14 PDT
  17592. From: mendel (Mendel Rosenblum)
  17593. Subject: Recovery problems
  17594.  
  17595. There are serious problems with recovery when linking with all the uninstalled
  17596. modules.  It seems to either
  17597. a) Go into an infinite recovery loop with allspice. 
  17598. b) Get errors recoverying all the program texts and swap files so every user
  17599.    process gets killed.
  17600. or
  17601. c) Hang waiting for recovery.
  17602.  
  17603. Sometimes it is just a single file that reading it causes the infinite recovery
  17604. loops.
  17605.  
  17606. More info later.
  17607.  
  17608.  
  17609.  
  17610.  
  17611. 1686.
  17612. Date: Fri, 12 Oct 90 10:00:53 PDT
  17613. From: mendel (Mendel Rosenblum)
  17614. Subject: Recov_IsHostDown
  17615.  
  17616. If you saw a routine named Recov_IsHostDown() and used like:
  17617.  
  17618.     if (!Recov_IsHostDown(hdrPtr->fileID.serverID)) {
  17619.     Fsutil_Reopen(hdrPtr->fileID.serverID, (ClientData)NIL);
  17620.     }
  17621.  
  17622. What would you guess that it returned? Boolean?  How about a ReturnStatus
  17623. which is SUCCESS, FAILURE, RPC_SERVICE_DISABLED, RPC_TIMEOUT, or anyone
  17624. one of another half-dozen error codes. This also points out a limitation of
  17625. function prototypes.  
  17626.  
  17627.     extern void foo(ReturnStatus status);
  17628.  
  17629.     Boolean b;
  17630.     int     i;
  17631.     ReturnStatus status;
  17632.  
  17633.     main() { 
  17634.         foo(b); foo(i); foo(status); foo(NIL); foo(TRUE); foo(strlen("t"));
  17635.     }
  17636.  
  17637. will compile without an error message.
  17638.  
  17639.  
  17640.  
  17641.  
  17642. 1687.
  17643. Date: Fri, 12 Oct 90 10:28:03 PDT
  17644. From: rab (Robert A. Bruce)
  17645. Subject: Re: Recov_IsHostDown 
  17646.  
  17647. The problem is that `typedef' provides an alias for an existing
  17648. type.  It does not define a new type.  As far as the compiler, or
  17649. even lint, is concerned a `Boolean', a `ReturnStatus', and an `int'
  17650. are exactly the same thing.
  17651.  
  17652. If we want to be able to catch bugs like this, then we need to
  17653. use C++, or get a better lint.  There are some commercially
  17654. available lints that will treat typedefs as different types,
  17655. as well as doing strict checking of function prototypes and
  17656. other ANSI features.
  17657.  
  17658.  
  17659.  
  17660.  
  17661.  
  17662. 1688.
  17663. Date: Fri, 12 Oct 90 10:32:37 PDT
  17664. From: mendel (Mendel Rosenblum)
  17665. Subject: Bug with large non-cached I/O
  17666.  
  17667. Large (over 16K) reads of noncached files caused repeated timeouts and recovery
  17668. with the file server.  The problem was caused by changes to the RPC module 
  17669. that caused Rpc_MaxSizes() to indicate the system supports rpcs with 31744
  17670. bytes of data.  The file system believes the RPC and tries to do RPCs of
  17671. this size. The rpc/net module appears to drop these large RPC on the floor. 
  17672.  
  17673.  
  17674.  
  17675.  
  17676. 1689.
  17677. Date: Fri, 12 Oct 1990 12:38:37 PDT
  17678. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  17679. Subject: misleading constants
  17680.  
  17681. This can be considered whining.  In various places in the kernel
  17682. we have constants such as RPC_MAX_NUM_FRAGS that define the sizes
  17683. of things.  Quite often changing these constants causes the code
  17684. to break.  In the case of RPC_MAX_NUM_FRAGS one would expect that
  17685. changing the maximum number of fragments in an rpc would allow
  17686. larger rpcs to be sent.  In reality the rpc fails somehow.  I would
  17687. like to suggest that if a constant must have a particular value
  17688. that the appropriate initialization code check that the constant
  17689. hasn't been changed and panic if it has.  Obviously there should
  17690. be a comment somewhere that explains why the value cannot be changed.
  17691. Otherwise we end up with the system not working for non-obvious
  17692. reasons.
  17693.  
  17694.  
  17695.  
  17696.  
  17697. 1690.
  17698. Date: Fri, 12 Oct 90 15:43:09 PDT
  17699. From: ouster (John Ousterhout)
  17700. Subject: _CONST redefined?
  17701.  
  17702. When I compile a file that includes <math..h> I get the warning
  17703. message "/sprite/lib/include/math.h:22: warning: _CONST redefined".
  17704. I assume that this is a consequence of Bob's recent changes?  Bob,
  17705. can you avoid the use of _CONST, since it seems to conflict with
  17706. math.h?  Thanks.
  17707.  
  17708.  
  17709.  
  17710.  
  17711. 1691.
  17712. Date: Fri, 12 Oct 90 15:07:03 PDT
  17713. From: Mike Kupfer <kupfer>
  17714. Subject: runaway shell on allspice
  17715.  
  17716. I just killed a csh that was sucking up lots of allspice's cycles.
  17717.  
  17718.   10e0b READY   2:30 csh -i
  17719.  
  17720. (it was, at various times, taking 35% of the CPU).  It was owned by
  17721. root; is there some way to track down who might have owned it?  (Under
  17722. UNIX I'd check the controlling tty and see who was logged in there. 
  17723. Is there some Sprite equivalent?)
  17724.  
  17725.  
  17726.  
  17727.  
  17728. 1692.
  17729. Date: Fri, 12 Oct 90 17:17:08 PDT
  17730. From: ouster (John Ousterhout)
  17731. Subject: Allspice daemons dead
  17732.  
  17733. Mail isn't getting through to Allspice, and the network daemons
  17734. seem to be dead.  Can someone on the 6th floor restart them?
  17735. Thanks.
  17736.                     -John-
  17737.  
  17738.  
  17739.  
  17740. 1693.
  17741. Date: Fri, 12 Oct 90 17:44:08 PDT
  17742. From: shirriff (Ken Shirriff)
  17743. Subject: Re: floating point printf
  17744.  
  17745. >Bob:
  17746. >(I also think we should drop the parens around NaN, since neither
  17747. >ultrix nor sunOS has them.)
  17748.  
  17749. I've modified printf to return NaN and Inf, instead of (Nan) and (INFINITY).
  17750. It now handles negative NaN and Inf too, as SunOS does.  On the sun4, which
  17751. apparently doesn't handle subnormal numbers, subnormals are printed as "Sub"
  17752. instead of "-.,0.,(e+15".
  17753.  
  17754. The new library also has my faster fread and fwrite, which as far as I know
  17755. have no bugs.
  17756.  
  17757. The sun4 floating point bug still remains, though.
  17758.  
  17759.  
  17760.  
  17761.  
  17762.  
  17763. 1694.
  17764. Date: Fri, 12 Oct 90 18:02:07 PDT
  17765. From: mendel (Mendel Rosenblum)
  17766. Subject: floating point on sun4 fixed
  17767.  
  17768. I fixed the problems reported with floating point on the sun4. The CPU was
  17769. being told to skip over random instrutions after the FPU trapped to the
  17770. software emulation.  
  17771.  
  17772.     Mendel
  17773.  
  17774.  
  17775. 1695.
  17776. Date: Fri, 12 Oct 90 18:04:00 PDT
  17777. From: mendel (Mendel Rosenblum)
  17778. Subject: printf of subnormal numbers broken on sun4
  17779.  
  17780. The printf on the sun4 doesn't print subnormal numbers.  It instead prints 
  17781. "Sub".  
  17782.  
  17783.  
  17784.  
  17785.  
  17786. 1696.
  17787. Date: Fri, 12 Oct 1990 18:32:03 PDT
  17788. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  17789. Subject: incomplete comments
  17790.  
  17791. Any ideas what the "code" and "addr" parameters might be?
  17792.  
  17793. /*
  17794.  *----------------------------------------------------------------------
  17795.  *
  17796.  * Sig_SendProc --
  17797.  *
  17798.  *      Store the signal in the pending mask and store the code for the given
  17799.  *      process.
  17800.  *
  17801.  *      NOTE: Assumes that we are called without the master lock down and
  17802.  *      with the process locked.
  17803.  *
  17804.  * Results:
  17805.  *      In the case of a local process, SUCCESS is returned.  If the process
  17806.  *      is migrated, error conditions such as RPC_TIMEOUT may be returned.
  17807.  *
  17808.  * Side effects:
  17809.  *      Signal pending mask and code modified.  If the process being signalled
  17810.  *      is migrated, an RPC is sent.  If the process is local, the sched_Mutex
  17811.  *      master lock is grabbed.
  17812.  *
  17813.  *----------------------------------------------------------------------
  17814.  */
  17815. ReturnStatus
  17816. Sig_SendProc(procPtr, sigNum, code, addr)
  17817.     register    Proc_ControlBlock *procPtr;
  17818.     int                           sigNum;
  17819.     int                           code;
  17820.     Address                       addr;
  17821.  
  17822.  
  17823.  
  17824.  
  17825. 1697.
  17826. Date: Fri, 12 Oct 90 22:57:58 PDT
  17827. From: Mike Kupfer <kupfer>
  17828. Subject: keyboard bounce caused by high load?
  17829.  
  17830. I noticed that the load on sage was up a bit when I was having the
  17831. keyboard bounce problems.  The load has gone away, and so has the
  17832. bounce.  I suppose it could be coincidence, but then again, maybe not.
  17833. (All of this refers to when I'm running X.)
  17834.  
  17835.  
  17836.  
  17837.  
  17838. 1698.
  17839. Date: Fri, 12 Oct 90 23:30:59 PDT
  17840. From: Mike Kupfer <kupfer>
  17841. Subject: fsync weirdness
  17842.  
  17843. Emacs is unhappy on sage.  It works fine on other machhines, but on
  17844. sage it compplains about an "IO  error writingg" any file..  (Notice
  17845. thatt the *&^^&%% keyboard bounce is back; so are TVE's pmakes.)
  17846. Aftter playing around with it a  bit, I've discovered that the file
  17847. iss actually gettingg written back okay.  What's causing the error is
  17848. that fsync is failing, with errror 22 (EINVAL), which according to the
  17849. man pagee means thhat the file descriptor refers to a sockket, not a
  17850. file.  This does not make a loot of sense to me, as the file is opened
  17851. - well, creat'd - only a few dozen lines above the fsync.
  17852.  
  17853. The appended test program fails as well.
  17854.  
  17855. I suspect that this mess is somehow related to my crashing Sage while
  17856. looking at the sun4 flloating point bug.   I'm running Mendel's
  17857. keernel; perhaps there's some  recovery-related problem?  Rebooting
  17858. Sage doesn't helpp (though I haven't tried rebooting with an older
  17859. kernel).  I'll leave this up over the weekend in case anybody wants to
  17860. look  at it, but at some poiint (Monday?)  if I still get  complaints
  17861. from Emacs, I''d like to try rebooting Allspice.
  17862.  
  17863. --
  17864. #include <sys/file.h>
  17865.  
  17866. main()
  17867. {
  17868.     int fd = open("bar.out", O_RDWR | O_CREAT, 0644);
  17869.  
  17870.     if (fd < 0) {
  17871.         perror("bar.out");
  17872.         exit(1);
  17873.     }
  17874.  
  17875.     write(fd, "foo bar baz\n", strlen("foo bar baz\n")+1);
  17876.  
  17877.     if (fsync(fd) < 0)
  17878.         perror("bar.out: fsync");
  17879.  
  17880. }
  17881.  
  17882.  
  17883.  
  17884.  
  17885. 1699.
  17886. Date: Fri, 12 Oct 90 23:43:00 PDT
  17887. From: Mike Kupfer <kupfer>
  17888. Subject: can't get floating point regs via gdb on sun4c
  17889.  
  17890. Maybe this applies to vanilla sun4s, too.
  17891.  
  17892. "info reg" lies about the contents of the f registers.  I have a test
  17893. program that adds 10.0 and 20.0.  It uses f2 and f4.  However, "info
  17894. reg" shows garbage for f2 and f4 (e.g., 7.00649e-45 for f2; 1.4013e-45
  17895. and then 0 for f4).
  17896.  
  17897. Wish: it would be nice if "info float" would display the floating
  17898. point registers, so that you don't have to wade through all the ones
  17899. that "info reg" displays.
  17900.  
  17901.  
  17902.  
  17903.  
  17904. 1700.
  17905. Date: Sat, 13 Oct 90 14:24:34 PDT
  17906. From: mendel (Mendel Rosenblum)
  17907. Subject: Re: fsync weirdness
  17908.  
  17909. > Emacs is unhappy on sage.  It works fine on other machhines, but on
  17910. > sage it compplains about an "IO  error writingg" any file..  (Notice
  17911. > thatt the *&^^&%% keyboard bounce is back; so are TVE's pmakes.)
  17912. > Aftter playing around with it a  bit, I've discovered that the file
  17913. > iss actually gettingg written back okay.  What's causing the error is
  17914. > that fsync is failing, with errror 22 (EINVAL), which according to the
  17915. > man pagee means thhat the file descriptor refers to a sockket, not a
  17916. > file.  This does not make a loot of sense to me, as the file is opened
  17917. > - well, creat'd - only a few dozen lines above the fsync.
  17918.  
  17919. >I suspect that this mess is somehow related to my crashing Sage while
  17920. >looking at the sun4 flloating point bug.   I'm running Mendel's
  17921. >keernel; perhaps there's some  recovery-related problem?  Rebooting
  17922. >Sage doesn't helpp (though I haven't tried rebooting with an older
  17923. >kernel).  I'll leave this up over the weekend in case anybody wants to
  17924. >look  at it, but at some poiint (Monday?)  if I still get  complaints
  17925. >from Emacs, I''d like to try rebooting Allspice.
  17926.  
  17927. I can't repeat this problem between sage and allspice. I do get the problem
  17928. between machine of different byte orders.  The problem here is that
  17929. the Fmt_Convert() call on Ioc_WriteBackArgs in fsioFile.c is passed a
  17930. format of "w" when Ioc_WriteBackArgs looks like:
  17931.  
  17932. typedef struct Ioc_WriteBackArgs {
  17933.     int         firstByte;      /* Index of first byte to write back */
  17934.     int         lastByte;       /* Index of last byte to write back */
  17935.     Boolean     shouldBlock;    /* If TRUE, call blocks until write back done */
  17936. } Ioc_WriteBackArgs;
  17937.  
  17938. Using the convert of Ioc_LockArgs as a guide, I changed the format to "w3". 
  17939. Is this correct?   From reading the man page I'd guess the format would 
  17940. be "{www}". This is assuming that Boolean == int == 4 byte integer. Anyone
  17941. know what the correct format string is for this structure? 
  17942.  
  17943.  
  17944.  
  17945.  
  17946. 1701.
  17947. Date: Sat, 13 Oct 90 14:32:44 PDT
  17948. From: mendel (Mendel Rosenblum)
  17949. Subject: Re: can't get floating point regs via gdb on sun4c
  17950.  
  17951. Gdb on the sun4 has no idea about the values of the floating point registers
  17952. on the sun4.  The problem here is that gdb was ported before the floating
  17953. point was implemented on the sun4 and it hasn't been updated "know" about
  17954. the floating point.
  17955.  
  17956.  
  17957.  
  17958.  
  17959. 1702.
  17960. Date: Mon, 15 Oct 90 10:29:59 +0100
  17961. From: Fred Douglis <douglis@cs.vu.nl>
  17962. Subject: Re: incomplete comments 
  17963.  
  17964. this was documented in the original Sig man page(s), lost to
  17965. posterity.  actually, i take that back, code was documented, but addr
  17966. was added recently.   code was some sort of sub-code to the signal.
  17967. the only place i think it may be used is by the VM system when a
  17968. process is killed due to a swapping error.  
  17969.  
  17970.  
  17971.  
  17972.  
  17973. 1703.
  17974. Date: Fri, 12 Oct 90 15:07:03 PDT
  17975. From: Mike Kupfer <kupfer>
  17976. Subject: runaway shell on allspice
  17977.  
  17978. I just killed a csh that was sucking up lots of allspice's cycles.
  17979.  
  17980.   10e0b READY   2:30 csh -i
  17981.  
  17982. (it was, at various times, taking 35% of the CPU).  It was owned by
  17983. root; is there some way to track down who might have owned it?  (Under
  17984. UNIX I'd check the controlling tty and see who was logged in there. 
  17985. Is there some Sprite equivalent?)
  17986.  
  17987.  
  17988.  
  17989.  
  17990. 1704.
  17991. Date: Mon, 15 Oct 90 08:36:49 PDT
  17992. From: ouster (John Ousterhout)
  17993. Subject: Re: migration load average
  17994.  
  17995. Fred writes:
  17996.  
  17997.     It sounds like the problem with migration is due to the load being
  17998.     driven up for a long time....
  17999.     Ultimately, of course, the whole model needs to be generalized, and
  18000.     more easily parameterizable.
  18001.  
  18002. I agree with the second statement but not the first.  I think that
  18003. the problem is the way migd deals with load averages.  Once a process
  18004. has migrated onto a machine, the load average of that machine is
  18005. meaningless for the migration system, I think.  The process that migrated
  18006. onto the machine could spawn an arbitrary number of additional processes,
  18007. so there's no upper limit on how high you might expect the load to go.
  18008. If migration is to support multiple levels of migration (e.g. background
  18009. simulations and foreground compilations), then it should ignore the
  18010. load average when deciding whether to migrate foreground stuff onto a
  18011. machine that already has background stuff.
  18012.  
  18013. In my opinion, the only good use of load average is in deciding whether
  18014. the machine should be available for migration in the first place.  The
  18015. load average should only be considered when the machine hasn't had
  18016. migrated processes recently (i.e. the load average isn't determined by
  18017. migrated processes).  As I recollect, Fred and I discussed this at some
  18018. point, but either I wasn't able to convince him or he didn't have time
  18019. to implement this.  If we just edit midg.c to have the following
  18020. thresholds:
  18021.  
  18022.     #define THRESHOLD_HIGH0 1000.5
  18023.     #define THRESHOLD_HIGH1    1000.25
  18024.     #define THRESHOLD_HIGH2 1000.0
  18025.  
  18026. will this achieve the effect I've suggested?  Or will this also set the
  18027. threshold high for initial migration decisions too?
  18028.  
  18029.  
  18030.  
  18031.  
  18032. 1705.
  18033. Date: Mon, 15 Oct 1990 11:53:17 PDT
  18034. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  18035. Subject: nfsmount
  18036.  
  18037. I received the following message from Anthony up in Alberta.
  18038.  
  18039. About the nfsmount stuff, yes you where right we had where having
  18040. permission problems. I forgot that sprite's gethostbyname returns
  18041. fully quilfied host names, while at our site the policy is to reture
  18042. just the name segment, hence the nfs host did not recognize the sprite
  18043. machine. We fixed that and every thing works. You should add somthing
  18044. in the docs about this and about the fact that the mount point should
  18045. be a remote link not a dir. My first thoughts where that it is a dir
  18046. and nfsmount turns it into a remote link.
  18047.  
  18048.  
  18049.  
  18050. 1706.
  18051. Date: Mon, 15 Oct 90 11:53:40 PDT
  18052. From: rab (Robert A. Bruce)
  18053. Subject: sendmail aliases file
  18054.  
  18055. I thought about the sendmail alias file problem a little more.
  18056. When I was at Maryland, we had two programs, `addme' and `deleteme'.
  18057. These were programs that anyone could use to add or delete themselves
  18058. from mailing lists.
  18059.  
  18060. The syntax was
  18061.  
  18062. addme <mailing-list>
  18063. deleteme <mailing-list>
  18064.  
  18065. or for someone in group wheel,
  18066.  
  18067. addme <mailing-list> <user> <user> ...
  18068. deleteme <mailing-list> <user> <user> ...
  18069.  
  18070. So there was almost never a need to directly edit the aliases file,
  18071. and there was no need to have it generally world writable.
  18072.  
  18073.  
  18074.  
  18075.  
  18076. 1707.
  18077. Date: Mon, 15 Oct 90 11:56:55 PDT
  18078. From: Mike Kupfer <kupfer>
  18079. Subject: junk in /tmp
  18080.  
  18081. There are editor temp files in /tmp from August and other stuff from
  18082. June.  Do we have anything set up to remove old files from /tmp?  The
  18083. reason I ask is that I just got the following error message from the
  18084. mailer daemon.  I assume that the reason it couldn't create the temp
  18085. file is that it already exists (dated 26 August).  (The original
  18086. message did seem to get logged, though, so I'm not sure how important
  18087. the error message is.)
  18088.  
  18089. mike
  18090. --
  18091. Return-Path: MAILER-DAEMON
  18092. Received: by sprite.Berkeley.EDU (5.59/1.29)
  18093.     id AA593485; Mon, 15 Oct 90 03:11:35 PDT
  18094. Date: Mon, 15 Oct 90 03:11:35 PDT
  18095. From: MAILER-DAEMON (Mail Delivery Subsystem)
  18096. Subject: Returned mail: unknown mailer error 1
  18097. Message-Id: <9010151011.AA593485@sprite.Berkeley.EDU>
  18098. To: kupfer
  18099.  
  18100.    ----- Transcript of session follows -----
  18101. /users/sprite/cmds.gen/logger: /tmp/sh50e510: cannot create
  18102. 554 "|/users/sprite/cmds.gen/logger sprite log 'Sprite Log'"... unknown mailer error 1
  18103. 554 "|/users/sprite/cmds.gen/logger sprite log 'Sprite Log'"... unknown mailer error 1
  18104.  
  18105.    ----- Unsent message follows -----
  18106. Received: by sprite.Berkeley.EDU (5.59/1.29)
  18107.     id AA729409; Fri, 12 Oct 90 15:07:04 PDT
  18108. Message-Id: <9010122207.AA729409@sprite.Berkeley.EDU>
  18109. To: bugs
  18110. Subject: runaway shell on allspice
  18111. Date: Fri, 12 Oct 90 15:07:03 PDT
  18112. From: Mike Kupfer <kupfer>
  18113.  
  18114. I just killed a csh that was sucking up lots of allspice's cycles.
  18115.  
  18116.   10e0b READY   2:30 csh -i
  18117.  
  18118. (it was, at various times, taking 35% of the CPU).  It was owned by
  18119. root; is there some way to track down who might have owned it?  (Under
  18120. UNIX I'd check the controlling tty and see who was logged in there. 
  18121. Is there some Sprite equivalent?)
  18122.  
  18123.  
  18124.  
  18125.  
  18126. 1708.
  18127. Date: Mon, 15 Oct 90 13:18:36 PDT
  18128. From: shirriff (Ken Shirriff)
  18129. Subject: Re: junk in /tmp
  18130.  
  18131. >I use the program "rmold" (in /sprite/admin.%MACHINE) to clean up
  18132. >/tmp from time to time.  I just ran it now to delete things older
  18133. >than 14 days.  Unfortunately, it didn't get rid of all that much.
  18134.  
  18135. This program doesn't seem to have worked.  There are huge numbers of files
  18136. from August and September in /tmp.
  18137.  
  18138.  
  18139.  
  18140.  
  18141. 1709.
  18142. Date: Mon, 15 Oct 90 14:34:15 PDT
  18143. From: gibson@apathy.Berkeley.EDU (Garth Gibson)
  18144. Subject: Re: migration load average
  18145.  
  18146. In addition to John's comments, I wonder if pmake/mig'd will fairly
  18147. and efficiently share a system with multiple background pmakes?
  18148. Will each user/pmake get an arbitrary and varying subset of machines?
  18149. Some form of scheduling maybe called for.
  18150.  
  18151. It would also be nice if background jobs were "niced".
  18152.  
  18153.  
  18154.  
  18155.  
  18156. 1710.
  18157. Date: Mon, 15 Oct 90 16:56:25 PDT
  18158. From: ouster (John Ousterhout)
  18159. Subject: Replicated Ultrix stuff?
  18160.  
  18161. I just noticed that we have both /ultrix/cmds.ds3100 and
  18162. /sprite/ultrix/cmds.ds3100.  Does anyone know why we need both
  18163. of these directories?  If they're redundant, can one be eliminated?
  18164.  
  18165.  
  18166.  
  18167.  
  18168.  
  18169. 1711.
  18170. Date: Tue, 16 Oct 90 10:43:04 +0100
  18171. From: Fred Douglis <douglis@cs.vu.nl>
  18172. Subject: Re: migration load average 
  18173.  
  18174. if pmake worked properly, then each user would get within one host of
  18175. each other. (actually, as it works now, each pmake would get within
  18176. one host of each other, so one user running 2 pmakes gets twice as
  18177. many machines.  in retrospect this was a mistake.)  since pmake is
  18178. broken, and it forgets about machines after evictions, it's hard to
  18179. say.
  18180.  
  18181. as for running "niced", it might actually be possible to change pmake
  18182. to do that.  maybe if i have the time i'll try building a version of
  18183. pmake that does that and tell you about it.  should be trivial.
  18184. (famous last words.)
  18185.  
  18186.  
  18187.  
  18188.  
  18189.  
  18190. 1712.
  18191. Date: Tue, 16 Oct 90 12:31:45 PDT
  18192. From: shirriff (Ken Shirriff)
  18193. Subject: .newsrc junked
  18194.  
  18195. I don't know if this is file trashing, a rn bug, or related to the mail
  18196. bug, but my .newsrc file got replaced this morning by an equal length
  18197. of garbage.
  18198.  
  18199.  
  18200.  
  18201.  
  18202. 1713.
  18203. Date: Tue, 16 Oct 90 16:35:07 PDT
  18204. From: Mike Kupfer <kupfer>
  18205. Subject: uptime hang (whining)
  18206.  
  18207. I tried doing an "uptime" on sage and allspice before the most recent
  18208. crash.  In both cases the "uptime" hung, apparently because pride was
  18209. down.  (I guess pride had been running the migration daemon or
  18210. something.)  kill -9 would not get rid of the process.  Why is
  18211. "uptime" so fragile, and why can't I use "kill -9" to blow processes
  18212. out of the water?
  18213.  
  18214.  
  18215.  
  18216.  
  18217.  
  18218. 1714.
  18219. Date: Tue, 16 Oct 90 18:07:53 MDT
  18220. From: stolcke@ICSI.Berkeley.EDU
  18221. Subject: Re: Files in lost+found 
  18222.  
  18223. >  
  18224. >  You have files in the following lost+found directories.  These files were
  18225. >  recovered during reboot.  Please examine the following directories
  18226. >  and recover or delete your files.
  18227. >  /X11/lost+found
  18228.  
  18229.  
  18230. I keep getting these messages without being able to follow the advice
  18231. because of the permissions on /X11/lost+found.  Can anybody help?
  18232.  
  18233.  
  18234.  
  18235.  
  18236.  
  18237. 1715.
  18238. Date: Tue, 16 Oct 90 20:49:09 PDT
  18239. From: ouster (John Ousterhout)
  18240. Subject: lost+found directories
  18241.  
  18242. I thought we were going to reprotect these so that they're world-writable?
  18243. Bob, can you take care of this?  Thanks.
  18244.  
  18245.                     -John-
  18246.  
  18247.  
  18248. 1716.
  18249. Date: Wed, 17 Oct 90 08:46:16 PDT
  18250. From: ouster (John Ousterhout)
  18251. Subject: Re: migration load average
  18252.  
  18253. I've bumped the thresholds up to 2.5-3, so Garth's simulations shouldn't
  18254. prevent compilations from migrating.  It would still be nice to get the
  18255. low-priority stuff niced, though.
  18256.  
  18257.  
  18258.  
  18259.  
  18260.  
  18261. 1717.
  18262. Date: Wed, 17 Oct 90 09:34:14 +0100
  18263. From: Fred Douglis <douglis@cs.vu.nl>
  18264. Subject: Re: uptime hang (whining) 
  18265.  
  18266. you can't kill processes that are in the middle of an RPC, and if
  18267. allspice hangs, then so will the migration daemon.  if pride were down
  18268. and nothing else was wrong, the RPCs would time out rather than hang,
  18269. and everything would work fine.  (presumably.)
  18270.  
  18271.  
  18272.  
  18273.  
  18274.  
  18275. 1718.
  18276. Date: Wed, 17 Oct 90 16:25:20 PDT
  18277. From: Mike Kupfer <kupfer>
  18278. Subject: "info reg" can hang sun4c gdb
  18279.  
  18280. I was trying to debug some (libc) code on sage that wasn't built -g. 
  18281. I did an "info reg", but gdb got stuck after "i7".  Eventually sage
  18282. panic'd with a "floating point exception with bad trap code" (this is
  18283. with the 1.075 kernel).  
  18284.  
  18285. I think the floating point registers come after i7, and I think the
  18286. problem is that the application (X) hadn't done any floating point
  18287. operations, so the floating point state was uninitialized.
  18288.  
  18289.  
  18290.  
  18291.  
  18292.  
  18293. 1719.
  18294. Date: Wed, 17 Oct 90 16:40:17 PDT
  18295. From: Mike Kupfer <kupfer>
  18296. Subject: sun4c X died - malloc bug?
  18297.  
  18298. I had just bugged an icon (to de-iconify it) and my X froze up.  This
  18299. is the X from cmds.new.  Here's the stack backtrace:
  18300.  
  18301. #0  0xabddc in malloc ()
  18302. #1  0x9602c in Xalloc (...) (...)
  18303. #2  0x1b2e4 in miRegionCopy (...) (...)
  18304. #3  0x1e03c in miSubtract (...) (...)
  18305. #4  0x2463c in miComputeClips (...) (...)
  18306. #5  0x245a0 in miComputeClips (...) (...)
  18307. #6  0x245a0 in miComputeClips (...) (...)
  18308. #7  0x245a0 in miComputeClips (...) (...)
  18309. #8  0x245a0 in miComputeClips (...) (...)
  18310. #9  0x245a0 in miComputeClips (...) (...)
  18311. #10 0x245a0 in miComputeClips (...) (...)
  18312. #11 0x24b5c in miValidateTree (...) (...)
  18313. #12 0x8cd44 in MapWindow (...) (...)
  18314. #13 0x6afb4 in ProcMapWindow (...) (...)
  18315. #14 0x6a98c in Dispatch (...) (...)
  18316. #15 0x7f010 in main (...) (...)
  18317.  
  18318. Xalloc was trying to allocate with amount=104.  There aren't any
  18319. symbols for malloc, so it's hard to say much about why it died. 
  18320. malloc died at the following instruction:
  18321.  
  18322.   0xabddc <malloc+244>:   ld [l3],o5
  18323.  
  18324. "info reg" displayed l3 as
  18325.  
  18326.   l3      0x2d2d2d2d  757935405
  18327.  
  18328.  
  18329.  
  18330.  
  18331.  
  18332. 1720.
  18333. Date: Wed, 17 Oct 90 17:53:02 PDT
  18334. From: Mike Kupfer <kupfer>
  18335. Subject: where are the kdbx sources?
  18336.  
  18337. /sprite/src/attcmds/kdbx didn't have a ds3100.md, which is peculiar,
  18338. since the DECstations are the only machines we use kdbx on.  Also,
  18339. the strings in the installed kdbx don't match the strings in
  18340. /sprite/src/attcmds/kdbx (e.g., "command file name must follow -c
  18341. flag" instead of "missing command file name for -c").  Is
  18342. /sprite/src/attcmds/kdbx in fact the right place for the sources?  I
  18343. can't find any other likely looking directory. 
  18344.  
  18345. By the way, /sprite/src/attcmds/kdbx doesn't build, either - it can't
  18346. find <machine/psl.h>.
  18347.  
  18348.  
  18349.  
  18350.  
  18351. 1721.
  18352. Date: Wed, 17 Oct 90 21:41:17 PDT
  18353. From: ouster (John Ousterhout)
  18354. Subject: Re: where are the kdbx sources?
  18355.  
  18356. Sorry, but there aren't any kdbx sources.  Mike Nelson did kdbx at
  18357. DEC and was never able to get clearance to return the sources to
  18358. Berkeley.  Thus we only have the binary.   Think of it on the positive
  18359. side:  this means we don't have to worry about maintaining it.
  18360. Seriously, the right long-term solution, I think, is to get gdb
  18361. running on the DS3100's, but I'm hoping someone else outside Sprite
  18362. will do this (if they haven't done it already).
  18363.  
  18364.  
  18365.  
  18366.  
  18367. 1722.
  18368. Date: Wed, 17 Oct 90 22:46:53 PDT
  18369. From: Mike Kupfer <kupfer>
  18370. Subject: Re: where are the kdbx sources? 
  18371.  
  18372. > Sorry, but there aren't any kdbx sources.  Mike Nelson did kdbx at
  18373. > DEC and was never able to get clearance to return the sources to
  18374. > Berkeley.  
  18375.  
  18376. Does this mean that /sprite/src/attcmds/kdbx should be tossed, except
  18377. for the man page?
  18378.  
  18379. > Seriously, the right long-term solution, I think, is to get gdb
  18380. > running on the DS3100's,
  18381.  
  18382. The gdb sources at CMU have 3100 support, though it doesn't look like
  18383. those files have made it into the FSF's gdb distribution.
  18384.  
  18385.  
  18386.  
  18387.  
  18388. 1723.
  18389. Date: Thu, 18 Oct 90 08:46:09 PDT
  18390. From: ouster (John Ousterhout)
  18391. Subject: Re: where are the kdbx sources?
  18392.  
  18393. Although I'm not certain, I think that /sprite/src/attcmds/kdbx
  18394. is the old Sun-3 version, which we don't use anymore.  If this is
  18395. true, then it should just be deleted, I think.
  18396.  
  18397.  
  18398.  
  18399.  
  18400. 1724.
  18401. Date: Thu, 18 Oct 90 10:24:33 PDT
  18402. From: mendel (Mendel Rosenblum)
  18403. Subject: tar/sprite fs incompatiblity
  18404.  
  18405. For some reason tar opens files being created during extraction with the 
  18406. options: O_NDELAY|O_WRONLY|O_APPEND|O_CREAT|O_EXCL. The O_NDELAY causes
  18407. sprite to set the stream as NON_BLOCKING. Unfortunately, non-blocking streams
  18408. to regular files work differently in Sprite than Unix.  In Unix, writes to
  18409. non-blocking regular files behave the same as writes to  blocking regular 
  18410. files.  In Sprite, writes to non-blocking files return EWOULDBLOCK if the
  18411. file cache is full. This error causes the file not to be written. I think
  18412. the fix is to do the same thing we did for reads of files that block because
  18413. of cache full.
  18414.  
  18415.  
  18416.  
  18417.  
  18418. 1725.
  18419. Date: Thu, 18 Oct 90 11:48:08 PDT
  18420. From: mendel (Mendel Rosenblum)
  18421. Subject: proc module deadlock while debugging
  18422.  
  18423. I hit the following deadlock while trying to debug a user process with 
  18424. gdb.   A process being debugged gets a signal and calls Proc_SuspendProcess()
  18425. which locks the process and then grabs the debugLock to put the process
  18426. on the debug list.  The gdb process calls Proc_Debug with the
  18427. PROC_GET_THIS_DEBUG option which grabs the debugLock and then tries
  18428. to lock the process.  The processes end up waiting for each other to 
  18429. release a lock.
  18430.  
  18431.  
  18432.  
  18433.  
  18434. 1726.
  18435. Date: Thu, 18 Oct 90 13:11:46 PDT
  18436. From: ouster (John Ousterhout)
  18437. Subject: Frame buffer verbosity
  18438.  
  18439. When I start up X a bunch of messages appear on my screen about the
  18440. frame buffer type, color map info, etc., sort of like somebody was
  18441. debugging with printf's and didn't ever take out the printfs.  Do
  18442. these messages really need to be there?  If not, can the relevant
  18443. person (Mary, perhaps?) chop them out?
  18444.  
  18445.  
  18446.  
  18447.  
  18448. 1727.
  18449. Date: Thu, 18 Oct 90 13:32:32 PDT
  18450. From: mgbaker (Mary Gray Baker)
  18451. Subject: Re: Frame buffer verbosity
  18452.  
  18453. That's because I accidentally left some of those messages in the last
  18454. kernel.  I removed them for the next kernel already.
  18455.  
  18456.  
  18457.  
  18458.  
  18459. 1728.
  18460. Date: Thu, 18 Oct 90 15:29:55 PDT
  18461. From: kupfer (Mike Kupfer)
  18462. Subject: can't "ps -a | more" on allspice
  18463.  
  18464. I keep getting "Signal 22", followed by a csh job number and two
  18465. pids (e.g., "[1] 80e53 80e54").
  18466.  
  18467.  
  18468.  
  18469.  
  18470. 1729.
  18471. Date: Fri, 19 Oct 1990 16:05:09 PDT
  18472. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  18473. Subject: Rpc_Dispatch didn't check for short packets
  18474.  
  18475.  
  18476. There was a bug in Rpc_Dispatch that caused it to byte-swap incoming
  18477. RPC headers before verifying that the packet length was greater
  18478. than the size of a header.   This caused all sun3s with an Intel
  18479. chip and the new kernel to crash, along with all sun4s.  I'm not
  18480. sure why the other machines didn't crash.  Also, the packet in question
  18481. came from the gateway "csgw".  It was an IP packet to the broadcast
  18482. address.  It didn't occur to me until later that this was peculiar,
  18483. so I don't know what the packet contained.  From looking at the
  18484. code the packet must have contained the correct IP protocol
  18485. (NET_IP_PROTOCOL_SPRITE).  Perhaps there is a conflict?
  18486.  
  18487. I fixed Rpc_Dispatch so it checks that the packet is larger than
  18488. an RPC header first.
  18489.  
  18490.  
  18491.  
  18492.  
  18493. Log-Number: 30231
  18494. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  18495. Date: Fri, 19 Oct 1990 17:21:47 PDT
  18496. Subject: stat() fails if server is down
  18497.  
  18498. The fstat() system call will fail with an invalid argument if the
  18499. server is down.  This means I have to modify netroute.new to 
  18500. ignore the error.  Wouldn't it make sense if all RPCs to a server
  18501. hung if the server was down?
  18502.  
  18503. John
  18504.  
  18505.  
  18506. 1730.
  18507. Date: Fri, 19 Oct 90 17:40:22 PDT
  18508. From: ouster (John Ousterhout)
  18509. Subject: Re: stat() fails if server is down
  18510.  
  18511. Initially some calls failed and some hung if the server was down.
  18512. As time went by, Brent gradually changed more and more of the calls
  18513. to hang.  I think the correct behavior is probably for *all* of
  18514. the calls to hang.  If it's easy to change fstat to do that, I
  18515. think it would be the best thing to do.
  18516.  
  18517.  
  18518.  
  18519.  
  18520. 1731.
  18521. Date: Fri, 19 Oct 90 22:51:23 PDT
  18522. From: Mike Kupfer <kupfer>
  18523. Subject: X byte swapping death
  18524.  
  18525. Mario Silva is getting bit with the following bug when he runs a CAD
  18526. program ("vem", I think) on a ds3100, using a sun4c for the X server.  
  18527.  
  18528. In the instance that I debugged, SProcCreateWindow (in dix/swapreq.c)
  18529. wants to byte-swap a "create window" request, which apparently
  18530. consists of a header followed by some number of bytes.  The "some
  18531. number of bytes" part is handled by passing a pointer and an unsigned
  18532. count to a byte-swapper.  The count is computed by subtracting the
  18533. request length from the size of the request header.  The problem is
  18534. that the request length, as given to SProcCreateWindow, is less than
  18535. the size of the request header, leading to a very large unsigned
  18536. count.  The byte-swapper (SwapLongs) eventually gets a segmentation
  18537. fault.
  18538.  
  18539. Now, I don't understand the details of X protocol processing.  Does
  18540. the client specify how long a particular request is, or does the
  18541. server compute the request length from the request type?  (It looks to
  18542. me to be the former, but I'm not sure.)  Could someone who understands
  18543. this stuff better than I do tell me what's supposed to happen? 
  18544. (Another way to phrase the question is "is ReadRequestFromClient
  18545. broken, or have we found a way for a faulty client to crash X?")
  18546.  
  18547.  
  18548.  
  18549.  
  18550.  
  18551. 1732.
  18552. Date: Sat, 20 Oct 90 01:53:27 PDT
  18553. From: gibson (Garth Gibson)
  18554. Subject: migration
  18555.  
  18556. I'm not sure what is going on.  I've started a background simulation pmake
  18557. and not got very many machines.  So I thought I must be competing with
  18558. other background jobs or late night users, but if I rsh into the machines
  18559. that are not available, all I find is the ipServer getting 2.7% of the cpu.
  18560.  
  18561. Are the other background jobs being evicted by my login?  Or is there
  18562. something wrong with the migd?
  18563.  
  18564.  
  18565.  
  18566.  
  18567. 1733.
  18568. Date: Sat, 20 Oct 90 01:56:07 PDT
  18569. From: gibson (Garth Gibson)
  18570. Subject: another problem tonight
  18571.  
  18572. when i try to tear down my simulations, kill -KILL is hanging??
  18573. garth
  18574.  
  18575.  
  18576.  
  18577. 1734.
  18578. Date: Sat, 20 Oct 90 11:46:08 PDT
  18579. From: gibson (Garth Gibson)
  18580. Subject: Re: migration load average
  18581.  
  18582. I tried to do some simulation runs last night.  I ran on vagrancy (ds3100)
  18583. and had a script snapshoting "ps" every 2 minutes.  I used the uninstalled
  18584. pmake.
  18585.  
  18586. I did notice that the simulations were running at PRI <.
  18587.  
  18588. I also noticed that pmake issued 1 job to each machine idle when it started
  18589. then NEVER ISSUED NEW JOBS to any machine (neither machines released by their
  18590. user, remote machines finishing a simulation, nor even the local machine
  18591. finishing a simulation.
  18592.  
  18593. I ran pmake verbose.  Here is the output:
  18594. ___________________________________________________________________
  18595. /scratch3/gibson/pmake: Lockfile owned by you -- ignoring it
  18596. +++ Initializing job 'Run/run.2.6/reli.db'
  18597. ...
  18598. Host 2 reclaimed.
  18599. JobFlagForMigration(2) called.
  18600. JobFlagForMigration(2) found job 'Run/run.2.9/reli.db'.
  18601. ----------------------------------------------------------------------
  18602.  
  18603.  
  18604.  
  18605. 1735.
  18606. Date: Sat, 20 Oct 90 13:28:55 PDT
  18607. From: gibson (Garth Gibson)
  18608. Subject: pmake problems continued
  18609.  
  18610. I tried pmake on the sun4s this morning and it works much better than
  18611. pmake on the ds3100s.  It has the lower priority, so it is Fred's
  18612. latest version, but it appears to be issuing on simulation completions
  18613. (and still gets multiple simulations on the host).
  18614.  
  18615.  
  18616.  
  18617.  
  18618. 1736.
  18619. Date: Sat, 20 Oct 90 15:33:20 PDT
  18620. From: mgbaker (Mary Gray Baker)
  18621. Subject: kvetching with lots off cc messages
  18622.  
  18623. Kvetching has many messages on its console about
  18624.     open of /sprite/cmds/cc waiting for recovery
  18625.     Remote exec of /sprite/cmds/cc failed: the system call was
  18626.         aborted by a signal
  18627.  
  18628. Could this be related to the migration problems that Mark and Garth have been
  18629. having?
  18630.  
  18631.  
  18632.  
  18633.  
  18634. 1737.
  18635. Date: Sat, 20 Oct 90 16:29:26 PDT
  18636. From: mgbaker (Mary Gray Baker)
  18637. Subject: kvetching reboot fixed hanging pmakes
  18638.  
  18639. Rebooting kvetching fixed Mark's problem with hanging pmakes.  I guess
  18640. he didn't report it to the bugs alias.
  18641.  
  18642.  
  18643.  
  18644.  
  18645. 1738.
  18646. Date: Sun, 21 Oct 90 12:11:39 PDT
  18647. From: sullivan (Mark Sullivan)
  18648. Subject: bugs
  18649.  
  18650. I'm not where to send this bug report.  ftp coredumped when I was
  18651. copying stuff back to shangri-la.  I managed to send about a dozen
  18652. files successfully, then it seg faulted.  The dead process is still
  18653. in the debug state on arson if you want to look at it.
  18654.  
  18655.  
  18656.  
  18657.  
  18658.  
  18659. 1739.
  18660. Date: Sun, 21 Oct 90 15:12:18 PDT
  18661. From: gibson (Garth Gibson)
  18662. Subject: ds3100 pmake problems
  18663.  
  18664. Pmake on the ds3100s is now back to normal - issuing jobs for than once.
  18665. Perhaps kvetching's RPC problem was hanging pmake for me as well as Mark.
  18666.  
  18667.  
  18668.  
  18669.  
  18670. 1740.
  18671. Date: Mon, 22 Oct 90 10:53:20 +0100
  18672. From: Fred Douglis <douglis@cs.vu.nl>
  18673. Subject: migration hanging
  18674.  
  18675. a comment on kvetching screwing up migration: we've seen this before.
  18676. if it should happen again, it would certainly be worthwhile for
  18677. someone to debug the offending machine before rebooting it, to see
  18678. what's getting locked up. (or maybe there's even an explanation of
  18679. this in the sprite log, if i or someone else debugged it before.  i
  18680. don't recall.)  
  18681.  
  18682.  
  18683.  
  18684.  
  18685. 1741.
  18686. Date: Mon, 22 Oct 90 09:30:09 PDT
  18687. From: mendel (Mendel Rosenblum)
  18688. Subject: fsattach on ds3100: Unknown option -c
  18689.  
  18690. The fsattach called on the ds3100 during booting produces the message:
  18691. Unknown option "-c";  type "fsattach -help" for information
  18692.  
  18693. It appears that the fsattach in /boot/cmds.ds3100 is out of date.  Is it safe
  18694. (ie will assault reboot) to type "make install" in fsattach?  I noticed that
  18695. John H. has many non-checked in changes in fsattach.   
  18696.  
  18697.  
  18698.  
  18699.  
  18700. 1742.
  18701. Date: Mon, 22 Oct 90 15:37:51 PDT
  18702. From: ouster (John Ousterhout)
  18703. Subject: Ethernet resets
  18704.  
  18705. I rebooted piracy with "verynew" this morning.  Since then it's
  18706. gotten about 8 Ethernet chip resets.  With the old kernel I doubt
  18707. that I would have seen this many resets in a week, so I'm pretty
  18708. sure something's working differently.  What's interesting is that
  18709. Piracy is a DS3100, not a Sun;  did the net module even change
  18710. for DS3100's?
  18711.  
  18712.  
  18713.  
  18714.  
  18715. 1743.
  18716. Date: Mon, 22 Oct 90 18:52:03 PDT
  18717. From: shirriff (Ken Shirriff)
  18718. Subject: Allspice servers died
  18719.  
  18720. All the servers on allspice except bootp were gone (ipServer, inetd,
  18721. sendmail, tftpd, etc.), so I restarted them.
  18722.  
  18723.  
  18724.  
  18725.  
  18726. 1744.
  18727. Date: Tue, 23 Oct 90 11:02:26 PDT
  18728. From: mendel (Mendel Rosenblum)
  18729. Subject: stream recovery bug
  18730.  
  18731. This bug report describes a bug in recovering server shadow streams after 
  18732. the client and server lose communication. This problem only happens when
  18733. the server thinks a client has crashed (eg an RPC timeout). The bug
  18734. causes client's reads and writes to open files to fail after recovery with a 
  18735. invalid argument error message. The problem can be deadly to your machines
  18736. if the files are swap files.  
  18737.  
  18738. When a client machine has an open file, it has a Fs_Stream handle that contains
  18739. the current offset into the file and a pointer to the "Fsrmt_FileIOHandle" 
  18740. of the file. The server also keeps parallel data structures. The Fs_Stream
  18741. on the server is called the "shadow stream".   When the server loses 
  18742. communication with the client, it goes thru the entire handle table 
  18743. marking the FileIOHandles to note the client is no longer uses them.
  18744. It doesn't do anything to the shadow streams.  If the client was the only
  18745. person using the I/O handle, it now because available for reuse. Once
  18746. it frees the I/O handle, shadow stream now points to garbage. If the
  18747. client restarts communication with the server and goes thru recovery it
  18748. gets fetches and uses the shadow stream that points to garbage.  Fortunately,
  18749. the way our memory allocator works and the memory allocation pattern means
  18750. the I/O handle most likely will be replaced by another I/O handle.  There
  18751. is a check in the stream reopen procedure that detects if the shadow stream
  18752. is pointing at a different I/O handle than the client thinks.  A message of
  18753. the form:
  18754. Fsio_StreamReopen, I/O handle mismatch, client 48 its I/O <10,5885666> my I/O <10,184043>
  18755. is printed on the server and it fails to recover this stream.  Any future I/O
  18756. will also fail. Note that if the client reboots then the shaddow streams
  18757. are never recovered and become yet another memory leak. 
  18758.  
  18759. The "right" thing to do is reimplement the file handles not to use broken 
  18760. garbage collection as its primary storage management technique.  An easier 
  18761. fix would be to implement the ClientKill procedure (the routine that gets
  18762. called when a client dies) to toss "shadow stream" only in use by the
  18763. "crashed" client. An even easier fix would be to toss incorrect shadow
  18764. streams found during recovery. 
  18765.  
  18766.  
  18767.  
  18768.  
  18769. 1745.
  18770. Date: Tue, 23 Oct 90 11:16:03 PDT
  18771. From: mendel (Mendel Rosenblum)
  18772. Subject: Mx/tx showBindings command broken
  18773.  
  18774. The mx and tx showBindings command procedure doesn't work.  It produces a 
  18775. header but no binding list. It looks like:
  18776.  
  18777. Keystroke Bindings:
  18778. --------- --------
  18779.  
  18780.  
  18781.  
  18782.  
  18783. 1746.
  18784. Date: Tue, 23 Oct 90 15:30:32 PDT
  18785. From: Mike Kupfer <kupfer>
  18786. Subject: Re: can't "ps -a | more" on allspice
  18787.  
  18788. The problem seems to be related to piping things into "more", and it
  18789. seems to depend on running on the console.  For example, "cat .cshrc |
  18790. more" failed frequently for me (though not always, and not just as
  18791. root), but only on the console.  "more .cshrc" works fine.
  18792.  
  18793.  
  18794.  
  18795.  
  18796. 1747.
  18797. Date: Tue, 23 Oct 90 15:43:10 PDT
  18798. From: Mike Kupfer <kupfer>
  18799. Subject: locking confusion in ranlib
  18800.  
  18801. ranlib is supposed to lock the archive file before operating on it. 
  18802. In this case it passes a flag to ar so that ar doesn't try to lock the
  18803. archive (which would presumably deadlock).  There is also a "no lock"
  18804. flag that tells ranlib not to lock the archive.
  18805.  
  18806. The strangeness is that the sense of the "no lock" flag gets
  18807. reversed when ranlib invokes ar.  That is, if ranlib doesn't lock the
  18808. archive, it tells ar not to lock it, either.  If ranlib does lock the
  18809. archive (the default), it tells ar to lock it.  (Yet we know that
  18810. ranlib doesn't deadlock.)  Anyone know what's going on here?
  18811.  
  18812.  
  18813.  
  18814.  
  18815. 1748.
  18816. Date: Tue, 23 Oct 90 17:08:12 PDT
  18817. From: Mike Kupfer <kupfer>
  18818. Subject: flock() compatibility bug
  18819.  
  18820. [This is a resubmission from last Friday.  Apparently allspice crashed
  18821. just as the message was being logged.]
  18822.  
  18823. flock() has 3 operations: LOCK_EX (exclusive lock), LOCK_SH (shared
  18824. lock), and LOCK_UN (unlock).  Sprite acts as though there are two
  18825. operations - LOCK_EX and LOCK_SH - and LOCK_UN is treated as a
  18826. modifier bit.  The upshot is that under UNIX you simply say
  18827.  
  18828.   flock(fd, LOCK_UN);
  18829.  
  18830. but under Sprite you have to say
  18831.  
  18832.   flock(fd, LOCK_UN|LOCK_EX);
  18833.  
  18834. This is painful to fix in the libc stub routine, because you have to
  18835. know whether the current lock is exclusive or shared (see the
  18836. Fsio_Unlock kernel routine).  Would it be reasonable to change
  18837. Fsio_Unlock so that if "operation" is unspecified, Fsio_Unlock will
  18838. pick the correct "operation" based on the current lock flags?
  18839.  
  18840.  
  18841.  
  18842.  
  18843. 1749.
  18844. Date: Wed, 24 Oct 1990 14:05:34 PDT
  18845. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  18846. Subject: migration on sun3 w/ verynew kernel
  18847.  
  18848. If I try to run pmake on a sun3 running the verynew kernel I get the following
  18849. error:
  18850.  
  18851. Warning: Proc_MigrateTrap: error encountered sending encapsulated state:
  18852. the peer process of a migrated process does not exist.
  18853.  
  18854. The first time I tried this was followed by a complaint that the
  18855. serverID for an rpc was bad (250).  The second time I got a fatal
  18856. error because the serverID was zero (broadcast).
  18857.  
  18858.  
  18859.  
  18860.  
  18861. 1750.
  18862. Date: Wed, 24 Oct 1990 16:15:12 PDT
  18863. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  18864. Subject: writes to network devices always succeed
  18865.  
  18866. DevNet_FsWrite always returns SUCCESS, even if you write garbage.
  18867. The fix isn't trivial, but I'll look into it.
  18868.  
  18869.  
  18870.  
  18871.  
  18872. 1751.
  18873. Date: Wed, 24 Oct 90 19:53:04 PDT
  18874. From: rab (Robert A. Bruce)
  18875. Subject: NIL ioHandlePtr
  18876.  
  18877. Sabotage crashed in FindCode(), vmSeg.c.  It was running MR.052.
  18878. Fsio_DeencapStream() had created an Fs_Stream structure with a NIL
  18879. ioHandlePtr.  Should ioHandlePtr ever be NIL?  The comment in the
  18880. header file is obsolete:  it says to look at fsInt.h but there is
  18881. no fsInt.h.
  18882.  
  18883.     Fs_HandleHeader    *ioHandlePtr;    /* Stream specific data used for I/O.
  18884.                      * This really references a somewhat
  18885.                      * larger object, see fsInt.h */
  18886.  
  18887. Here is the stack trace:
  18888.  
  18889. #1  0xf60ad970 in FindCode (filePtr=(struct Fs_Stream *) 0xf6525b30, procLinkPtr=(VmProcLink *) 0xf64f5b30, usedFilePtr=(ClientData) 0xf82c9c4c) (vmSeg.c line 249)
  18890. #2  0xf60ad868 in Vm_FindCode (filePtr=(struct Fs_Stream *) 0xf6525b30, procPtr=(struct Proc_ControlBlock *) 0xf64ecc30, execInfoPtrPtr=(Vm_ExecInfo **) 0xf82c9c54, usedFilePtr=(ClientData) 0xf82c9c4c) (vmSeg.c line 198)
  18891. #3  0xf60a8604 in Vm_DeencapState (procPtr=(struct Proc_ControlBlock *) 0xf64ecc30, buffer=(char *) 0xf64663c4 "") (vmMigrate.c line 265)
  18892. #4  0xf607db48 in ProcMigReceiveProcess (procPtr=(struct Proc_ControlBlock *) 0xf64ecc30, inBufPtr=(Proc_MigBuffer *) 0xf82c9d48) (procMigrate.c line 947)
  18893. #5  0xf6085b70 in Proc_RpcMigCommand (...) (...)
  18894. #6  0xf60912f0 in Rpc_Server (...) (...)
  18895. #7  0xf6097598 in Sched_StartKernProc (...) (...)
  18896. #8  0xf6097518 in Sched_StartKernProc (...) (...)
  18897.  
  18898.  
  18899.  
  18900.  
  18901. 1752.
  18902. Date: Thu, 25 Oct 90 11:00:12 +0100
  18903. From: Fred Douglis <douglis@cs.vu.nl>
  18904. Subject: Re: migration on sun3 w/ verynew kernel 
  18905.  
  18906. did you get a backtrace to see who had garbaged the RPC id?
  18907.  
  18908. anyway, it sounds like someone probably made an incompatible change to
  18909. migration and -- perhaps -- migration between two verynew kernels will
  18910. work.  if that's the case, incrementing the migration version number
  18911. and remaking verynew should help.  otherwise you may have to change
  18912. the migration code to account for whatever else changed in the kernel.
  18913. i'm willing to consult.
  18914.  
  18915.  
  18916.  
  18917.  
  18918. 1753.
  18919. Date: Thu, 25 Oct 90 06:00:41 PDT
  18920. From: rab (Robert A. Bruce)
  18921. Subject: invisible file
  18922.  
  18923. The file /sprite/src/kernel/sync/LOCK.make shows up if I type
  18924. ``echo *'' but if I type ``ls'' it says `LOCK.make not found'.
  18925.  
  18926. If I try to make anything in the directory it says:
  18927.  
  18928. ``pmake: Could not create lock file LOCK.make''
  18929.  
  18930. The Makefile and all the *.md/*.mk files in sync are zero length.
  18931.  
  18932.  
  18933.  
  18934.  
  18935.  
  18936. 1754.
  18937. Date: Thu, 25 Oct 90 09:44:27 PDT
  18938. From: tve (Thorsten von Eicken)
  18939. Subject: migration trashed
  18940.  
  18941. local migration daemons can't open the /sprite/admin/migd/pdev file to
  18942. connect to the master daemon. I guess one ought to restart the global
  18943. daemon. I looked into the man pages for migd, mig and migcmd, but none
  18944. tells me how to restart the global daemon (I seem to remember one has to
  18945. send the right signal to the local daemon), Fred, could you fix this? I
  18946. also couldn't figure out where the global daemon runs at the moment, again,
  18947. a pointer in the man page would be helpful.
  18948.  
  18949.  
  18950.  
  18951.  
  18952.  
  18953. 1755.
  18954. Date: Thu, 25 Oct 90 17:45:31 +0100
  18955. From: Fred Douglis <douglis@cs.vu.nl>
  18956. Subject: Re: migration trashed 
  18957.  
  18958. you could try just removing the pdev file, and then kill -KILL the
  18959. server.  get the processID from the file /sprite/admin/migd/check or
  18960. something like that.  sorry that this isn't documented, but i'm afraid
  18961. someone else will have to add it at this point.  editing remotely
  18962. isn't much fun from over here...
  18963.  
  18964.  
  18965.  
  18966.  
  18967.  
  18968. 1756.
  18969. Date: Thu, 25 Oct 1990 10:05:42 PDT
  18970. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  18971. Subject: sprite log problems
  18972.  
  18973. Mail from Fred ends up looking like this in the index files:
  18974.  
  18975. 30258 ,@tempest.cs.vu.nl,@localhost.cs.vu.nl:douglis@tempest.cs.vu.nl Thu Oct 25
  18976.  03:00:45 1990      442 Re: migration on sun3 w/ verynew kernel 
  18977.  
  18978.  
  18979.  
  18980.  
  18981.  
  18982. 1757.
  18983. Date: Thu, 25 Oct 90 10:28:11 PDT
  18984. From: tve (Thorsten von Eicken)
  18985. Subject: Re: migration trashed 
  18986.  
  18987. >you could try just removing the pdev file, and then kill -KILL the
  18988. >server.  get the processID from the file /sprite/admin/migd/check or
  18989. >something like that.  
  18990. Well, I found the process ID, but how do I figure out on which machine that
  18991. process lives?
  18992.     TvE
  18993.  
  18994.  
  18995.  
  18996.  
  18997. 1758.
  18998. Date: Thu, 25 Oct 90 10:44:55 PDT
  18999. From: mendel (Mendel Rosenblum)
  19000. Subject: where does fscheck output go
  19001.  
  19002. Where does the output from allspice's fscheck go?  
  19003.  
  19004.  
  19005.  
  19006.  
  19007. 1759.
  19008. Date: Thu, 25 Oct 90 16:38:53 PDT
  19009. From: bmiller (Bob Miller)
  19010. Subject: printer problem
  19011.  
  19012. our printer, lw533, doesn't seem to want to print anything from
  19013. SUBVERSION (at least).  SHALLOT is printing OK.  Can someone check
  19014. into this?  Thanks.
  19015.  
  19016.  
  19017.  
  19018.  
  19019. 1760.
  19020. Date: Thu, 25 Oct 1990 17:35:46 PDT
  19021. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  19022. Subject: allspice crash
  19023.  
  19024. Allspice's problems were due to a number of bugs.  Here is the list.
  19025.  
  19026. 1)  Allspice was crashing due to a screw-up in the memory allocater.
  19027. This was very reproducible. It happened right after Allspice started
  19028. answering requests for the new disk.  Since the new filesystem is much
  19029. larger than any other there may be a problem handling large filesystems.
  19030.  
  19031. 2) There is a bit in the summary sector that is set when fscheck checks
  19032. the disk.  This should be cleared when the disk is attached, but the
  19033. new kernel is not doing it.  This is a very serious problem that needs
  19034. to be fixed immediately.
  19035.  
  19036. 3) The output from fscheck is not being logged correctly.
  19037.  
  19038. 4) The kernel attaches a few disks looking for the root disks.  The
  19039. aforementioned fscheck bit is then cleared, causing these disks to be
  19040. checked on every reboot.
  19041.  
  19042.  
  19043. In summary, problem 1 was solved by removing the disk from allspice.
  19044. I plan on attaching it to murder for further tests.  Problems 3 and 4
  19045. aren't life-threatening.  Problem 2 is temporarily fixed by having
  19046. allspice check its disk on every reboot.  This probably doubles the reboot
  19047. time.  Mendel and I are working on getting a new version of the kernel out.
  19048.  
  19049.  
  19050.  
  19051.  
  19052.  
  19053. 1761.
  19054. Date: Thu, 25 Oct 90 19:06:35 PDT
  19055. From: mgbaker (Mary Gray Baker)
  19056. Subject: xrn buttons
  19057.  
  19058. In the last week, xrn seems to have lost a lot of its buttons (such
  19059. as "previous" to back up to a previous message) while in message-reading
  19060. mode.  The binary hasn't changed for a month, so I don't know why this is.
  19061. Does anyone know?
  19062.  
  19063.  
  19064.  
  19065.  
  19066. 1762.
  19067. Date: Thu, 25 Oct 90 20:37:41 PDT
  19068. From: rab (Robert A. Bruce)
  19069. Subject: hoot
  19070.  
  19071. I set up hoot, a sun3/75 in Evans 444.  It downloads the
  19072. kernel ok, but when it broadcasts for the root server, allspice
  19073. doesn't answer.  I double checked all the files that addhost
  19074. modifies, and I restarted the servers on allspice, but that
  19075. didn't help.
  19076.  
  19077.  
  19078.  
  19079.  
  19080.  
  19081. 1763.
  19082. Date: Fri, 26 Oct 90 09:12:35 PDT
  19083. From: mendel (Mendel Rosenblum)
  19084. Subject: Bug in Proc_WaitForMigration()
  19085.  
  19086. For some reason procMigration.c uses NULL rather than NIL for some of its
  19087. "no-value" conditions.  This leads to problems like the one that crashed
  19088. jaywalk last night:
  19089.  
  19090. ReturnStatus
  19091. Proc_WaitForMigration(processID)
  19092.     Proc_PID processID;
  19093. {
  19094.     Proc_ControlBlock *procPtr;
  19095.     ReturnStatus status;
  19096.  
  19097.     procPtr = Proc_LockPID(processID);
  19098.     if (procPtr == NULL) {
  19099.     return(PROC_INVALID_PID);
  19100.     }
  19101.  
  19102.  
  19103. Proc_LockPID() returns NIL on failure not NULL.  I fixed this check.  
  19104.  
  19105.  
  19106.  
  19107.  
  19108.  
  19109. 1764.
  19110. Date: Fri, 26 Oct 90 13:08:46 PDT
  19111. From: sullivan (Mark Sullivan)
  19112. Subject: ftp bug (again)
  19113.  
  19114. As requested, here is the second bug report.  Ftp segment faults when
  19115. I "mput" files to shangri-la.  Reproduce by:
  19116.  
  19117. ftp shangri-la
  19118. cd cad
  19119. mput context.c
  19120.  
  19121. The file is sent successfully, then ftp dies.  I was able to ftp at
  19122. about 1:30 last night with no problems.  No idea why it suddenly stopped
  19123. working again.  
  19124.  
  19125.  
  19126.  
  19127.  
  19128.  
  19129. 1765.
  19130. Date: Fri, 26 Oct 90 13:54:25 PDT
  19131. From: pmchen@ginger.Berkeley.EDU (Peter M. Chen)
  19132. Subject: garlic crashed
  19133.  
  19134. During the allspice downtime (1:55pm), garlic (ds3100) crashed
  19135. with
  19136. MachKernelExceptionHandler: Address error on load: addr: b PC: 800c4f34
  19137. Entering debugger with a TLB load address error exception at PC 0x800c4f34
  19138.  
  19139. I'll leave it in the debugger for your perusal.
  19140.  
  19141. I obviously was doing nothing, since sprite was down at the time.
  19142.  
  19143.  
  19144.  
  19145.  
  19146. 1766.
  19147. Date: Fri, 26 Oct 90 15:28:19 PDT
  19148. From: elm (ethan miller)
  19149. Subject: foo
  19150.  
  19151. Several times today I've gotten strange bugs with mail and xrn.  The
  19152. mail bug occurs when I try to start up mail on a sparcstation, and
  19153. it prints the following message:
  19154. /usr/tmp/Rx343604: file already exists
  19155. The file doesn't already exist.  The same sort of problem occurs in
  19156. xrn; the program is unable to create a file in /tmp.
  19157.  
  19158.  
  19159.  
  19160.  
  19161. 1767.
  19162. Date: Fri, 26 Oct 90 15:37:28 PDT
  19163. From: shirriff (Ken Shirriff)
  19164. Subject: /tmp problem cause
  19165.  
  19166. Probably Mendel knows this already, but the problem is in ofsFileDesc.c
  19167.  
  19168.     if (fileDescPtr->flags & FSDM_FD_ALLOC) {
  19169.         printf( "Ofs_FileDescInit fetched non-free file desc\n");
  19170.         return(FS_FILE_EXISTS);
  19171.     }
  19172.  
  19173.  
  19174.  
  19175.  
  19176. 1768.
  19177. Date: Fri, 26 Oct 1990 15:37:29 PDT
  19178. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  19179. Subject: /tmp
  19180.  
  19181. The /tmp problem appears to be caused by too many files. I think I've seen
  19182. this before.  Rebooting allspice probably isn't necessary.
  19183.  
  19184.  
  19185.  
  19186.  
  19187. 1769.
  19188. Date: Fri, 26 Oct 1990 16:02:12 PDT
  19189. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  19190. Subject: vm/fs problems during exit
  19191.  
  19192. We need to redesign the fs and vm parts of the cleanup when a process exits.
  19193. Currently the fs is cleaned up first, due to a race involving pseudo-devices.
  19194. This doesn't always work, since the deletion of a COW segment may involve
  19195. opening the swap file.  It looks to me like the fs cleanup has to be in
  19196. at least two parts.
  19197.  
  19198. Be warned that the verynew kernel could crash due to this. 
  19199.  
  19200.  
  19201.  
  19202.  
  19203.  
  19204. 1770.
  19205. Date: Fri, 26 Oct 90 16:13:19 PDT
  19206. From: shirriff (Ken Shirriff)
  19207. Subject: ds3100 assertion crash
  19208.  
  19209. Violence, running my version of verynew, crashed during pmake with
  19210. a failed assertion in Fs_GetSegPtr.
  19211.     assert(((unsigned int) fileHandle & WORD_ALIGN_MASK) == 0);
  19212. It failed to go into the debugger, so I couldn't find the problem.
  19213. (Is this a bug with assert?  It said "Fatal Error" and then kept
  19214. going)
  19215.  
  19216.  
  19217.  
  19218.  
  19219. 1771.
  19220. Date: Sat, 27 Oct 90 15:12:30 PDT
  19221. From: shirriff (Ken Shirriff)
  19222. Subject: ftp bug
  19223.  
  19224. I tried to track down the ftp seg. fault bug caused by doing mput.  The
  19225. problem is caused by trying to free a table of pointers that apparently
  19226. weren't malloc'd.  I installed the newest version of tftp, but that didn't
  19227. help.  So I just commented out the offending free to prevent the problem.
  19228. This may cause a memory leak in ftp, but who cares.
  19229.  
  19230.  
  19231.  
  19232.  
  19233.  
  19234. 1772.
  19235. Date: Sun, 28 Oct 90 15:37:11 PST
  19236. From: tve (Thorsten von Eicken)
  19237. Subject: rdate broken again
  19238.  
  19239. For example from crackle, being root, "rsh allspice echo hello" doesn't
  19240. work 'cause of permissions. Hence rdate allspice doesn't work either.
  19241.  
  19242.  
  19243.  
  19244.  
  19245. 1773.
  19246. Date: Sun, 28 Oct 90 18:14:48 PST
  19247. From: mendel (Mendel Rosenblum)
  19248. Subject: ds3100 max scsi transfer size 8k?
  19249.  
  19250. The ds3100 scsi HBA sets the maximum transfer size to be 8K.  Does
  19251. anyone know why? This means that LFS is forced to do I/Os in 8K chunks
  19252. causing bad write performance.  LFS on a ds3100 has a write rate
  19253. of ~300 kilobytes per second. The sun4 can do over 3 times this.
  19254.  
  19255.  
  19256.  
  19257.  
  19258. 1774.
  19259. Date: Sun, 28 Oct 90 23:17:43 PST
  19260. From: rab (Robert A. Bruce)
  19261. Subject: tapedrive on allspice doesn't work
  19262.  
  19263. I don't think the tapedrive works with the verynew kernel
  19264. on allspice.  Every time I try to use it I get
  19265.  
  19266. Can't open `/hosts/allspice/dev/exabyte.norewind': no such device
  19267.  
  19268. Murder is also running the verynew kernel and murder's tapedrive
  19269. works fine.
  19270.  
  19271.  
  19272.  
  19273.  
  19274.  
  19275. 1775.
  19276. Date: Fri, 26 Oct 90 15:56:21 PDT
  19277. From: mendel (Mendel Rosenblum)
  19278. Subject: Allspices reboot and problems
  19279.  
  19280. Allspice got beat unconscience by piracy swapping today. After piracy was
  19281. killed it deadlocked on some locked file handle.  I sync'ed the disk
  19282. and fastbooted allspice.  This appears to have left the /tmp disk with a
  19283. file descriptor allocated on disk but not in the descriptor alloc bitmap.
  19284.  
  19285.  
  19286.  
  19287.  
  19288. 1776.
  19289. Date: Mon, 29 Oct 90 12:18:15 PST
  19290. From: elm (ethan miller)
  19291. Subject: failed writeback message
  19292.  
  19293. On my sparcStation (terrorism), I get this message repeatedly:
  19294. RmtFile "/sprite/admin/migd/terrorism.Berkeley.EDU.log" <10,9559> Write-back
  19295. failed: out of disk space<40008>
  19296.  
  19297. There is plenty of disk space in /sprite/admin.
  19298.  
  19299.  
  19300.  
  19301.  
  19302. 1777.
  19303. Date: Mon, 29 Oct 90 16:40:19 PST
  19304. From: Mike Kupfer <kupfer>
  19305. Subject: blackmail doesn't like my password?
  19306.  
  19307. I can't log in on blackmail's as myself.  I can rlogin in, but only if
  19308. rlogin doesn't ask for my password.
  19309.  
  19310.  
  19311.  
  19312.  
  19313. 1778.
  19314. Date: Mon, 29 Oct 90 16:30:18 PST
  19315. From: kupfer (Mike Kupfer)
  19316. Subject: lack of line wrap on Blackmail's console
  19317.  
  19318. It looks like Blackmail's console driver doesn't do line wrapping, so if
  19319. your %TERM is "dumb", long lines get truncated.
  19320.  
  19321.  
  19322.  
  19323.  
  19324. 1779.
  19325. Date: Mon, 29 Oct 90 16:54:54 PST
  19326. From: mendel (Mendel Rosenblum)
  19327. Subject: varargs.h on ds3100 can't be included multiple times
  19328.  
  19329. Varargs.h on the ds3100 is different from the rest of the machine types in 
  19330. that it can't be included multiple times during the same compile.  
  19331.  
  19332.  
  19333.  
  19334.  
  19335. 1780.
  19336. Date: Mon, 29 Oct 90 16:55:57 PST
  19337. From: pmchen (Peter M. Chen)
  19338. Subject: time on syslog messages is wrong
  19339.  
  19340. Could it be the daylight savings time switch?
  19341.  
  19342. 10/29/90 17:43:09 anise (49) rebooted
  19343. 10/29/90 17:47:59 anise (49) rebooted
  19344. 10/29/90 17:53:47 raid1 (77) rebooted
  19345.  
  19346.  
  19347.  
  19348.  
  19349.  
  19350. 1781.
  19351. Date: Mon, 29 Oct 90 17:02:14 PST
  19352. From: Mike Kupfer <kupfer>
  19353. Subject: "kill" doesn't know about HUP
  19354.  
  19355. The "kill" program doesn't understand that "HUP" means signal 1.
  19356.  
  19357.  
  19358.  
  19359.  
  19360. 1782.
  19361. Date: Mon, 29 Oct 90 17:11:21 PST
  19362. From: Mike Kupfer <kupfer>
  19363. Subject: more on rdate failures
  19364.  
  19365. I found the following syslog entry for allspice:
  19366.  
  19367.   <28>Oct 27 04:01:18 inetd[30e34]: time/tcp accept: invalid argument
  19368.  
  19369. I sent inetd a SIGHUP and that seems to have made rdate work again.
  19370.  
  19371.  
  19372.  
  19373.  
  19374. 1783.
  19375. Date: Mon, 29 Oct 90 17:45:26 PST
  19376. From: rab (Robert A. Bruce)
  19377. Subject: setuid programs in /sprite/cmds.symm
  19378.  
  19379. All the setuid bits have been cleared in /sprite/cmds.symm.
  19380. Does anyone know what might have caused it?  This happened a
  19381. while ago in /sprite/ds3100.md, and it turned out that `strip'
  19382. was the culprit.
  19383.  
  19384.  
  19385.  
  19386.  
  19387.  
  19388. 1784.
  19389. Date: Tue, 30 Oct 1990 15:52:47 PST
  19390. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  19391. Subject: race sending ACKs
  19392.  
  19393. I believe this is a known bug.  A client acknowledges "close" requests
  19394. at interrupt level.  The channel structure has a special buffer for these
  19395. acks, but the channel is not marked as busy while they are being sent.
  19396. This means it is possible for the channel to be reused and the ack buffer
  19397. to be overwritten before the packet is sent.  This causes the warnings
  19398. about the wrong server IDs in rpc packets from allspice.  I'm not sure
  19399. if this is serious, other than the lots of network resets it causes.
  19400.  
  19401.  
  19402.  
  19403.  
  19404. 1785.
  19405. Date: Tue, 30 Oct 90 16:11:49 PST
  19406. From: Mike Kupfer <kupfer>
  19407. Subject: world-writable directories in /hosts?
  19408.  
  19409. Is there some reason why almost all the directories in /hosts are
  19410. world-writable?  That seems like a rather large security hole.
  19411.  
  19412.  
  19413.  
  19414.  
  19415. 1786.
  19416. Date: Tue, 30 Oct 90 16:17:48 PST
  19417. From: Mike Kupfer <kupfer>
  19418. Subject: Re: world-writable directories in /hosts? 
  19419.  
  19420. Perhaps bootcmds and other startup scripts should be moved to a
  19421. protected directory.
  19422.  
  19423.  
  19424.  
  19425.  
  19426. 1787.
  19427. Date: Tue, 30 Oct 90 16:45:11 PST
  19428. From: mendel (Mendel Rosenblum)
  19429. Subject: /dev/fb crashes machines
  19430.  
  19431. Sage crashed today while the X server was trying to do an IOControl on /dev/fb.
  19432. The crash was because the devicePtr->data was NIL. I think the crash happened
  19433. because of abug in the DevFBClose() routine.  The code needs to
  19434. check to see if the stream is still open before freeing the memory it allocated.
  19435. I fixed this bug.  This is also several other problems with DevFBOpen() 
  19436. leaking memory.  It leaks memory for opens that fail and for multiple opens
  19437. of the same device.   I didn't fix these.
  19438.  
  19439.  
  19440.  
  19441.  
  19442. 1788.
  19443. Date: Wed, 31 Oct 90 13:18:15 PST
  19444. From: shirriff (Ken Shirriff)
  19445. Subject: chdir to file
  19446.  
  19447. If you do chdir() to a file, Sprite returns ENOENT instead of ENOTDIR;
  19448. i.e. doesn't exist as opposed to is not a directory.  This should get
  19449. changed as part of Unix system call compatibility.
  19450.  
  19451.  
  19452.  
  19453.  
  19454. 1789.
  19455. Date: Wed, 31 Oct 90 13:22:08 PST
  19456. From: elm (ethan miller)
  19457. Subject: problems with auto-migration in tcsh
  19458.  
  19459. Last night I had lots of problems with the auto-migrator in tcsh.  I don't
  19460. know if they would apply to normal migration as well.  The problem was
  19461. that migrations to burble (from terrorism) seemed to die with this
  19462. syslog message:
  19463. <mig command> <date> burble (56) RPC timed-out
  19464. This would cause the shell to tell me that the command couldn't be executed.
  19465. Why are commands migrating to machines which often timeout RPCs?
  19466.  
  19467.  
  19468.  
  19469.  
  19470. 1790.
  19471. Date: Wed, 31 Oct 90 15:09:31 PST
  19472. From: Mike Kupfer <kupfer>
  19473. Subject: i386 as bug(s)
  19474.  
  19475. There were a couple fixes I made to the i386 gas while I was at
  19476. Olivetti.  It looks like our version of gas doesn't have them; I'm
  19477. trying to get a copy of the fixes back from CMU.  In the meanwhile,
  19478. beware of the following nasty: if the assembler finds an error (e.g.,
  19479. unrecognized opcode), it will still generate a .o file, and it will
  19480. exit with status 0.  Thus unless you scan the make log, you won't know
  19481. that anything went wrong.
  19482.  
  19483.  
  19484.  
  19485.  
  19486. 1791.
  19487. Date: Thu, 01 Nov 90 10:10:34 +0100
  19488. From: Fred Douglis <douglis@cs.vu.nl>
  19489. Subject: Re: problems with auto-migration in tcsh 
  19490.  
  19491. it takes a little while for the migration daemon to decide that a host
  19492. is down -- it marks the host as down if either the pdev connection to
  19493. the daemon on that host gets closed, or it doesn't receive an update
  19494. message after a while. currently i think the grace period is on the
  19495. order of a few minutes, since that's when the central daemon goes
  19496. through its tables and makes a checkpoint.  marking hosts as down can
  19497. and should be done a bit more frequently.  the easiest way to do this
  19498. would be to change the checkpoint interval, though it would be
  19499. possible to split the checkpointing & crash detection to be done at
  19500. different rates.  
  19501.  
  19502.  
  19503.  
  19504.  
  19505. 1792.
  19506. Date: Thu, 1 Nov 1990 11:03:50 PST
  19507. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  19508. Subject: bug in fsdm
  19509.  
  19510. There was a bug in fsdm that causes a machine to crash if you try to
  19511. attach a disk that is already attached.  I've fixed this in the uninstalled
  19512. fsdm.  
  19513.  
  19514.  
  19515.  
  19516.  
  19517. 1793.
  19518. Date: Thu, 1 Nov 90 11:19:16 PST
  19519. From: shirriff (Ken Shirriff)
  19520. Subject: X0msgs out of control
  19521.  
  19522. We ran out of disk space on / because /usr/adm/X0msgs was 56 megabytes.
  19523. Shouldn't something be controlling the size of this file?
  19524.  
  19525.  
  19526.  
  19527.  
  19528. 1794.
  19529. Date: Thu, 1 Nov 90 12:50:01 PST
  19530. From: tve (Thorsten von Eicken)
  19531. Subject: another silly limit in exec
  19532.  
  19533. Apparently in the exec* system calls, the environment copied to
  19534. the exec'ed process gets cut down such that none of the strings
  19535. in the environment are longer than about 1000 characters. Neither
  19536. SunOS, nor SysV nor RISC/OS have such a low limit. Could someone
  19537. make Sprite a little bit more generous? Why is there a limit
  19538. anyway? Why can't I pass a 1Meg environment if I want to do so?
  19539.     TvE
  19540. NB: of course none of these limits are documented anywhere (at least
  19541. not in any man page I could think of), which makes bug-finding rather
  19542. painful.
  19543.  
  19544.  
  19545.  
  19546.  
  19547.  
  19548. 1795.
  19549. Date: Fri, 02 Nov 90 13:13:23 +0100
  19550. From: Fred Douglis <douglis@cs.vu.nl>
  19551. Subject: sprite distribution
  19552.  
  19553. problems with the sprite distribution:
  19554.  
  19555. - fsmake and installboot were dynamically-linked binaries, and fsmake
  19556. wouldn't run here when it couldn't find "strstr".  bob recompiled
  19557. fsmake with -Bstatic and it ran okay; I tried logging into ginger and
  19558. compiling installboot with -Bstatic but hit "staticld: command not
  19559. found" and gave up.  instead, we tried running the one from the tape
  19560. and it complained about a library version mismatch but ran okay
  19561. otherwise.
  19562. - then when we booted sprite, it died quickly with "Fsdm_AttachDisk:
  19563. setting rpc_SpriteID to 0x0 from disk header" followed by a bad rpc
  19564. address. the kernel was "sprite version 1.0 rab" dated september 19.  
  19565. i had run fsmake with the options specified in the instructions.  i am
  19566. going to try running it again with an explicit "-host 1" option to see
  19567. if that fixes the problem.  certainly, it shouldn't be necessary.
  19568.  
  19569.  
  19570.  
  19571.  
  19572.  
  19573. 1796.
  19574. Date: Fri, 2 Nov 90 15:11:52 +0100
  19575. From: douglis@sprite.cs.vu.nl
  19576. Subject: distribution bugs
  19577.  
  19578. some more bugs:
  19579.  
  19580. first of all, as you may gather from my last mail, i was able to get
  19581. sprite up by explicitly setting the hostid in fsmake.  this shouldn't
  19582. be necessary or should at least be documented.
  19583.  
  19584. also, i had to run fsmake as root in order to write the disk.  again,
  19585. this should be mentioned (i don't believe it is, anyway).
  19586.  
  19587. the comment 4A about sprite not rebooting automatically doesn't
  19588. apply to sun3's -- it looks like this, and 4C, were taken from
  19589. the ds3100 dist.
  19590.  
  19591. adduser has problems. the distribution doesn't mention adduser, though
  19592. it exists -- it just points to "howto/addNewUser" which says to do it
  19593. by hand.  but doing it using adduser is only set up for the berkeley
  19594. environment (/user1, /user2, /mic, etc.) and doesn't let me say
  19595. just "/users/douglis" -- or at least it implies a link from /users/douglis
  19596. to itself, which suggested the program would break if it tried building
  19597. the directory.
  19598.  
  19599. /usr/tmp isn't built as part of the distribution.  at least, while editing
  19600. this message, it came out as /usr/tmp instead of /usr/tmp/ReNNNNN and
  19601. /usr/tmp is now a file rather than a directory.
  19602.  
  19603. finally, there's no mention about configuring the system for timezones.
  19604. you might have been amused that my last mail from sprite came out
  19605. as 6am PST. i think this is fixed now, but only because i knew where
  19606. to look.  instructions for changing the time zone should be added.
  19607.  
  19608.  
  19609.  
  19610.  
  19611.  
  19612. 1797.
  19613. Date: Fri, 2 Nov 90 09:53:32 PST
  19614. From: ouster (John Ousterhout)
  19615. Subject: Re: X0msgs out of control
  19616.  
  19617. I don't see why there should be a /usr/adm/X0msgs at all.  Aren't
  19618. X logs supposed to go in per-machine files rather than a single
  19619. global file?  Could there be a buggy X server around, or one with
  19620. debugging output enabled to create such a huge file?
  19621.  
  19622.  
  19623.  
  19624.  
  19625. 1798.
  19626. Date: Fri, 2 Nov 90 09:56:37 PST
  19627. From: mendel (Mendel Rosenblum)
  19628. Subject: Re: X0msgs out of control
  19629.  
  19630. This is a old bug in the X server that has been fixed along time ago. 
  19631. As soon as everyone is using Mary's new and improved X server it will go 
  19632. away.  This there something stoping the new X server from being installed?  
  19633.  
  19634.  
  19635.  
  19636.  
  19637. 1799.
  19638. Date: Fri, 2 Nov 90 11:31:22 PST
  19639. From: mgbaker (Mary Gray Baker)
  19640. Subject: infinite recovery on oregano
  19641.  
  19642. Oregano has been going through infinite recovery with allspice, getting
  19643. a stale handle on /.  I tried to debug this, but there's no debugable
  19644. kernel for the installed sun3.md/verynew (MR.054).  Mendel will make a
  19645. debugable kernel and then I will debug this.  In the meantime, it may
  19646. explain some part of allspice's poor performance.
  19647.  
  19648.  
  19649.  
  19650.  
  19651.  
  19652. 1800.
  19653. Date: Fri, 02 Nov 90 16:11:56 PST
  19654. From: Mike Kupfer <kupfer>
  19655. Subject: /sprite/lib/symm.md lives on /scratch3
  19656.  
  19657. Was there a problem with insufficient space on / or something?
  19658.  
  19659.  
  19660.  
  19661.  
  19662. 1801.
  19663. Date: Sun, 4 Nov 90 10:52:10 PST
  19664. From: ouster (John Ousterhout)
  19665. Subject: DS3100 load averages
  19666.  
  19667. For some reason, the load averages seem to be creeping up artificially
  19668. on our DS3100's.  Here's a patial rup listing:
  19669.  
  19670.         gluttony   ds3100   up   5+23:15   inuse  4.27  4.17  4.05 (1+16:43)
  19671.           heresy   ds3100   up   2+00:46   inuse  2.60  2.59  2.44 (1+17:37)
  19672.           hijack   ds3100   up   3+17:36   inuse  2.48  2.32  2.19 (0+22:50)
  19673.        kvetching   ds3100   up   2+23:22   inuse  2.51  2.38  2.32 (0+17:25)
  19674.           lsisim   ds3100   up   4+21:23   avail  1.00  1.41  1.59 (4+21:19)
  19675.          mustard   ds3100   up  17+21:12   inuse  1.51  1.87  2.09 (3+10:14)
  19676.          parsley   ds3100   up  23+02:58   inuse  2.07  2.27  2.17 (0+19:24)
  19677.       subversion   ds3100   up   6+02:40   inuse  2.35  2.02  2.02 (1+17:47)
  19678.         violence   ds3100   up   3+17:43   inuse  2.48  2.43  2.36 (1+11:15)
  19679.  
  19680. I rlogin-ed to a couple of these machines and poked around a bit;  the
  19681. machines appeared to be quite idle.
  19682.  
  19683.  
  19684.  
  19685.  
  19686. 1802.
  19687. Date: Sun, 4 Nov 90 15:55:27 PST
  19688. From: ouster (John Ousterhout)
  19689. Subject: Allspice reboot
  19690.  
  19691. I rebooted Allspice this afternoon after it hung up a few of my
  19692. RPCs; Mendel suspected that it was the usual "something-left-locked-
  19693. by-a-server-process" bug, so we didn't debug.  This problem is starting
  19694. to happen a lot;  apparently Allspice was rebooted several times
  19695. yesterday with the same problem (did I just miss the bug reports for
  19696. these reboots, or is someone still in the process of typing them in?).
  19697. John, can you give the tracing stuff high priority so we can get this
  19698. fixed before the whole world falls apart?  Thanks.
  19699.  
  19700. P.S. When I came in this morning, Allspice was responding very very
  19701. slowly.  I reset its network interface and it suddenly perked up again.
  19702.  
  19703.  
  19704.  
  19705.  
  19706. 1803.
  19707. Date: Sun, 4 Nov 1990 23:21:25 PST
  19708. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  19709. Subject: problems with Fsutil_HandleRelease
  19710.  
  19711. Allspice crashed this evening due to problems with Fsutil_HandleRelease.
  19712. It turns out that if your current working directory is deleted and you
  19713. cd to ".." Fsutil_HandleRelease will be called by FslclLookup
  19714. with the "locked" flag set to TRUE, when in fact the handle is unlocked.
  19715. This caused a panic, which I continued (I don't think anything bad will
  19716. happen).
  19717.  
  19718. Also, after looking through the code it appears to me that the problems
  19719. we've been having with Proc_ServerProcs leaving handles locked is due
  19720. to Fsio_FileCloseInt calling Fsutil_HandleRelease with "locked" set
  19721. to FALSE as part of processing pending deletes, when in fact the
  19722. handle is locked.  This is only a theory at this point since I haven't
  19723. tested it in a real kernel.
  19724.  
  19725. I'm sending Brent a copy of this message because I'm confused about the
  19726. purpose of the "locked" flag.  Why can't Fsutil_HandleRelease look
  19727. at the handle to tell whether it's locked or not?  Is there ever a time
  19728. where a process wants a locked handle released, but not unlocked?
  19729. I can't think of a situation in which it would, but I may be overlooking
  19730. something.
  19731.  
  19732.  
  19733.  
  19734.  
  19735.  
  19736. 1804.
  19737. Date: Mon, 05 Nov 90 10:57:06 +0100
  19738. From: Fred Douglis <douglis@cs.vu.nl>
  19739. Subject: Re: DS3100 load averages 
  19740.  
  19741. this is something i've tried unsuccessfully to track down.  i've
  19742. noticed it for months.  i initially suspected that the migd process
  19743. was waking up at exactly the same moment that some other process was,
  19744. but i put in random sleeps to try to desynchronize it and that failed.
  19745. often, a machine that's totally idle (rebooted and no one has logged
  19746. on) will show a load of 1.0 or 2.0.  i've also noticed that starting a
  19747. cpu-intensive process on one of these machines, and then terminating
  19748. it, will usually cause the load to drop down to 0.  
  19749.  
  19750. all i can think of is that there's some obscure code in migd that's
  19751. causing it to get confused.  that, or
  19752. sched_Instrument.numReadyProcesses (or whatever it's called) is
  19753. inaccurate.  maybe i can take a peek at migd sometime to see -- this
  19754. is a nasty bug that i'd like to stamp out.  
  19755.  
  19756.  
  19757.  
  19758.  
  19759. 1805.
  19760. Date: Mon, 5 Nov 90 09:49:12 PST
  19761. From: ouster (John Ousterhout)
  19762. Subject: Printing with verynew kernel
  19763.  
  19764. I'm having a terrible time printing with the "verynew" kernel.  I
  19765. get zillions of "Warning: receiver overrun on serialA" messages, and if
  19766. I try to print anything of any size while doing anything else on my
  19767. workstation (tyranny) it never finishes.  I finally gave up and
  19768. rebooted "new", at which point printing started working again (it still
  19769. got a few overrun messages, but not very many and everything eventually
  19770. printed OK).
  19771.  
  19772. This makes me suspect that the verynew kernel is leaving interrupts off
  19773. for a long time where it didn't used to.  Could there be bugs in the net
  19774. module that would be causing this to happen?  Could this also be
  19775. responsible for some of the sluggishness we've been seeing with Allspice?
  19776.  
  19777.  
  19778.  
  19779.  
  19780. 1806.
  19781. Date: Mon, 5 Nov 90 13:10:15 PST
  19782. From: shirriff (Ken Shirriff)
  19783. Subject: Ethernet collisions
  19784.  
  19785. John and I are getting huge numbers of 
  19786. "LE ethernet: Too many collisions" on our DECstations, but none on our
  19787. suns.  I can't get any work done on violence because of this.  Does
  19788. anyone know why this is happening?
  19789.  
  19790.  
  19791.  
  19792. Log-Number: 30336
  19793. Subject: allspice reboot
  19794. Date: Mon, 05 Nov 90 17:28:59 PST
  19795. From: Mike Kupfer <kupfer>
  19796.  
  19797.  
  19798. Allspice apparently died around 13:30, of unknown causes.  Somebody
  19799. rebooted it around 15:15.  It died with a level 15 interrupt while
  19800. doing disk checks.  I rebooted it around 16:15.
  19801.  
  19802. mike
  19803.  
  19804.  
  19805. Log-Number: 30337
  19806. From: tve (Thorsten von Eicken)
  19807. Subject: Re: allspice reboot 
  19808. Date: Mon, 05 Nov 90 17:39:43 PST
  19809.  
  19810. I rebooted it at 15:15. It had died with an "FScache_write: alloc
  19811. failed .... DISK FULL".
  19812.     TvE
  19813.  
  19814.  
  19815. Log-Number: 30338
  19816. Date: Tue, 6 Nov 90 10:28:19 PST
  19817. From: ouster (John Ousterhout)
  19818. Subject: Printer problems
  19819.  
  19820. The problem that gives my printer fits is ~ouster/dist/tcl/Tcl.man.
  19821. Try cd-ing to that directory and then typing "ditroff -man Tcl.man".
  19822. Then do something else with the printing workstation while it
  19823. prints, like compiling or reading mail.  Let me know whether this
  19824. works on your printers, OK?
  19825.                     -John-
  19826.  
  19827.  
  19828. Log-Number: 30340
  19829. Date: Tue, 6 Nov 90 11:16:14 PST
  19830. From: mendel (Mendel Rosenblum)
  19831. Subject: Re: Printer problems
  19832.  
  19833. Works fine on the 477 evans OusterPrinter. I printed it while compiling 
  19834. programs, reading mail, and eating cookies with no problems.  Remember when
  19835. we were saying that our printed tossed jobs when it ran out of paper and 
  19836. you said it didn't happen to you? May be our printers are configured 
  19837. differently.
  19838.  
  19839.     Mendel
  19840.  
  19841.  
  19842. Log-Number: 30344
  19843. Subject: Re: Printer problems 
  19844. Date: Tue, 06 Nov 90 12:54:55 PST
  19845. From: Mike Kupfer <kupfer>
  19846.  
  19847. Well, I tried it twice with the printer is 608-2 (driven by Sage). 
  19848. The first time it failed.  I got around 15 "receiver overrun" messages
  19849. (around 2-3 times usual) and nothing came out.  The second time I got
  19850. 6 "receiver overrun" messages and it printed fine.  I was reading mail
  19851. and netnews at the time.
  19852.  
  19853. mike
  19854.  
  19855.  
  19856. Log-Number: 30341
  19857. Date: Tue, 6 Nov 90 11:23:09 PST
  19858. From: mendel (Mendel Rosenblum)
  19859. Subject: fscheck segfaults if HOST not set
  19860.  
  19861. fscheck segfaults if the environment var HOST is not set.  When I login to 
  19862. allspice HOST is not set so fscheck segfaults.
  19863.  
  19864.     Mendel
  19865.  
  19866.  
  19867. Log-Number: 30342
  19868. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  19869. Date: Tue, 6 Nov 1990 12:00:48 PST
  19870. Subject: Re: fscheck segfaults if HOST not set
  19871.  
  19872.  
  19873. I fixed this bug and installed a new fscheck.
  19874.  
  19875. John
  19876.  
  19877.  
  19878. Log-Number: 30348
  19879. Date: Tue, 6 Nov 90 22:30:22 PST
  19880. From: shirriff (Ken Shirriff)
  19881. Subject: tx pdev bug?
  19882.  
  19883. A couple times I've had my tx window die with
  19884. "PdevReply: extra reply data (6 > 0) </hosts/violence/tx4>"   in my syslog and
  19885. "ReplyWithData couldn't send pdev reply; status "address given by the user
  19886.     for a system call was bad"  in my loging window.
  19887. Any ideas what this means?
  19888.  
  19889.  
  19890. Log-Number: 30352
  19891. Date: Wed, 7 Nov 90 14:01:43 PST
  19892. From: gibson (Garth Gibson)
  19893. Subject: gremlin
  19894.  
  19895. I'm trying to run gremlin on sprite and display on X11R4 on SunOS
  19896. 1) man gremlin gives me the old AED512 pre window system tool
  19897. 2) gremlin -display apathy:0 aborts with
  19898.     usage: gremlin [-o] [-s <.gremlinrc>] [file] [generic tool arguments]
  19899. 3) set DISPLAY = apathy:0
  19900.    gremlin
  19901.     Couldn't open display.  Are you sure X is running?
  19902. 4) xgremlin seems to work, but it isn't the same tool (do people use it)
  19903.  
  19904.  
  19905. Log-Number: 30353
  19906. Date: Wed, 7 Nov 90 14:03:35 PST
  19907. From: gibson (Garth Gibson)
  19908. Subject: grn/ditroff/psdit
  19909.  
  19910. I added a stipple pattern to a figure (on SunOS - see last message)
  19911. and tried to print the figure.  Fails with error:
  19912. /sprite/lib/ps/sun4.md/psdit: bad input char \055 (-)
  19913.  
  19914.  
  19915. Log-Number: 30354
  19916. Date: Wed, 7 Nov 90 14:30:48 PST
  19917. From: shirriff (Ken Shirriff)
  19918. Subject: Proc_Migrate error
  19919.  
  19920. I'm doing mkmf's and I keep getting:
  19921. Proc_Migrate: user does not have permission to migrate.
  19922.  
  19923. Why is this?
  19924.  
  19925.  
  19926. Log-Number: 30355
  19927. Date: Wed, 7 Nov 90 14:35:18 PST
  19928. From: mendel (Mendel Rosenblum)
  19929. Subject: Re: Proc_Migrate error
  19930.  
  19931.  
  19932. jaywalk% rsh violence migcmd -s
  19933.         Import    Export    Version    Ignore
  19934. Current:    root    root      16    
  19935.  
  19936.  
  19937. It looks like migration is turned off on violence. Look at 
  19938. /hosts/violence/bootcmds.   
  19939.  
  19940. jaywalk% cat /hosts/violence/bootcmds
  19941.  
  19942. #
  19943. # Boot script for sage
  19944. #
  19945. source /boot/bootcmds
  19946.  
  19947. #/user2/jhh/cmds.ds3100/lockd &
  19948.  
  19949. # Allow only root to do process migration involving this machine.
  19950. # (Violence isn't the most stable machine, with kernel development)
  19951. migcmd -I root -E root
  19952.  
  19953.  
  19954.     Mendel
  19955.  
  19956.  
  19957. Log-Number: 30357
  19958. Date: Thu, 8 Nov 90 14:19:37 PST
  19959. From: mendel (Mendel Rosenblum)
  19960. Subject: _HAS_PROTOTYPES and stdio.h, stdlib.h don't work well
  19961.  
  19962. If a user program defines _HAS_PROTOTYPES and trys to include stdio.h and
  19963. stdlib.h it gets errors. The problem with stdio.h is its prototypes use
  19964. varargs.h macros and types but it doesn't include varargs.h.  The problem
  19965. with stdlin.h is its prototypes used types from sys/types.h such as "size_t"
  19966. but doesn't include sys/types.h.
  19967.  
  19968.     Mendel
  19969.  
  19970.  
  19971. Log-Number: 30359
  19972. Date: Thu, 8 Nov 90 16:54:04 PST
  19973. From: mendel (Mendel Rosenblum)
  19974. Subject: /sprite/cmds.sun4/mkmf overwritten
  19975.  
  19976. /sprite/cmds.sun4/mkmf become somekind of x-based graph program for the sun4:
  19977.  
  19978. ls -l mkmf
  19979.  
  19980. -rwxrwxr-x  1 eklee      131072 Nov  8 14:53 mkmf*
  19981.  
  19982.  
  19983. I moved it to mkmf.eklee and reinstalled mkmf.  Anyone know anything about 
  19984. this?
  19985.  
  19986.     Mendel
  19987.  
  19988.  
  19989. Log-Number: 30360
  19990. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  19991. Date: Thu, 8 Nov 1990 17:01:30 PST
  19992. Subject: allspice crash report
  19993.  
  19994.  
  19995. Allspice crashed when /sprite/src/kernel filled up.  Bob was copying a
  19996. directory at the time.  Both the new and old copies ended up in lost+found.
  19997. The timer module is suspect, particularly the sun3.md and symm.md 
  19998. subdirectories.  I think Ken, Mendel, and I have put it back together.
  19999. Fscheck had to work hard to get the disk back into a sensible state.
  20000. At one point it was confused by garbage in an indirect block (there is code
  20001. to prevent this but perhaps it doesn't work), and it didn't update the
  20002. link counts correctly when it put directories in lost+found.
  20003.  
  20004.  
  20005. John
  20006.  
  20007.  
  20008. Log-Number: 30362
  20009. Date: Thu, 8 Nov 90 22:52:13 PST
  20010. From: sullivan (Mark Sullivan)
  20011. Subject: lint doesn't understand ansi prototype decls
  20012.  
  20013.  
  20014. These statements are syntax errors are far as Sprite lint is concerned:
  20015.  
  20016. extern double atof(char *);
  20017. extern int atoi(char *);
  20018. extern long atol(char *);
  20019. extern void abort(void);
  20020.  
  20021. The compiler likes them just fine.
  20022.  
  20023. Mark
  20024.  
  20025.  
  20026. Log-Number: 30363
  20027. From: rab (Robert A. Bruce)
  20028. Subject: Re: lint doesn't understand ansi prototype decls 
  20029. Date: Fri, 09 Nov 90 08:59:54 PST
  20030.  
  20031. You need to include the file cfuncproto.h, and declare your
  20032. prototypes like this:
  20033.  
  20034. extern double atof _ARGS_((char *));
  20035. extern int atoi _ARGS_((char *));
  20036. extern long atol _ARGS_((char *));
  20037. extern void abort _ARGS_((void));
  20038.  
  20039. Since these are all library functions, you can use the declarations
  20040. in stdlib.h:
  20041.  
  20042. #ifdef __STDC__
  20043. #define _HAS_PROTOTYPES
  20044. #endif
  20045.  
  20046. #include <stdlib.h>
  20047.  
  20048.     -bob
  20049.  
  20050.  
  20051.  
  20052. Log-Number: 30364
  20053. Date: Fri, 9 Nov 90 13:49:50 PST
  20054. From: mgbaker (Mary Gray Baker)
  20055. Subject: recovery problem
  20056.  
  20057. Allspice glitched right when I was writing out an editor file.  After allspice
  20058. recovered, the write still did not complete.  I finally had to interrupt
  20059. the write and execute it again.  Somehow the process wasn't being woken up
  20060. by the recovery system.
  20061.  
  20062. Mary
  20063.  
  20064.  
  20065. Log-Number: 30367
  20066. Date: Sat, 10 Nov 90 19:06:39 PST
  20067. From: mendel (Mendel Rosenblum)
  20068. Subject: Moving swap directory causes infinite recovery loop
  20069.  
  20070. If you move the swap directory of the machine to a different file server 
  20071. while the machine is running you can cause infinite recovery loops. The 
  20072. problem is that when you fork a process with swap pages on the orginial
  20073. server it creates to the swap file on the new file server and trys to do
  20074. COPY_BLOCK RPCs to the old file server. Because this handle is for a different
  20075. machine, the orginal file server doesn't find it and returns 
  20076. STALE_HANDLE which causes the client machine to start recovery. After 
  20077. recovery, the client restarts the COPY_BLOCK and starts the loop over again.
  20078. The moral of this story is to avoid moving the swap directory of a running
  20079. machine. 
  20080.     Mendel
  20081.  
  20082.  
  20083. Log-Number: 30369
  20084. Subject: default TM after mkmf for shell script
  20085. Date: Mon, 12 Nov 90 16:36:09 PST
  20086. From: Mike Kupfer <kupfer>
  20087.  
  20088.  
  20089. If I do "mkmf" in a directory for a shell script (e.g.,
  20090. /sprite/src/cmds/ranlib), it sets TM to default to the machine type
  20091. that mkmf ran on.  If I do "mkmf" in a directory for a program (e.g.,
  20092. /sprite/src/attcmds/tcsh) TM defaults to $(MACHINE).  I assume this is
  20093. a bug, probably in /sprite/lib/mkmf/mkmf.script.  Can someone confirm
  20094. or deny this for me?
  20095.  
  20096. thanks,
  20097. mike
  20098.  
  20099.  
  20100. Log-Number: 30370
  20101. Date: Tue, 13 Nov 90 14:50:37 PST
  20102. From: mgbaker (Mary Gray Baker)
  20103. Subject: allspice crashes
  20104.  
  20105. Allspice crashed several times today.  It locked up so that we could not
  20106. get it into the debugger.  Mendel and I tried debugging it via phone-link
  20107. between machine room and cad lab, but we have no conclusive results.
  20108. Also, fscheck got a scsi bus error, so it may be that some files are lost.
  20109. The l1d command on ginger seems to have problems.  It always returns the
  20110. error message "Address already in use."
  20111.  
  20112.  
  20113. Mary
  20114.  
  20115.  
  20116. Log-Number: 30371
  20117. Subject: "make install" didn't save old version
  20118. Date: Tue, 13 Nov 90 15:56:35 PST
  20119. From: Mike Kupfer <kupfer>
  20120.  
  20121. I did a "make installall" in /sprite/src/cmds/ranlib to test out a
  20122. hypothesis about a pmake-related bug.  I expected to clobber the
  20123. ds3100 ranlib, which would be okay because I'd just restore it from
  20124. /sprite/cmds.ds3100.old.  Well, when I did the "make installall" it
  20125. didn't save the old ranlib in /sprite/cmds.ds3100.old, it just zapped
  20126. it.  Oops.
  20127.  
  20128. (Bob, could you please restore /sprite/cmd.ds3100/ranlib from tape? 
  20129. Thanks.)
  20130.  
  20131. mike
  20132.  
  20133.  
  20134. Log-Number: 30372
  20135. Subject: MACHINES and TM variables in Makefile
  20136. Date: Tue, 13 Nov 90 16:04:44 PST
  20137. From: Mike Kupfer <kupfer>
  20138.  
  20139.  
  20140. In pmake, just what exactly is the role of MACHINES?  The comments in
  20141. the foo.mk files say "list of all target machines currently available
  20142. for this program".  However, this list is apparently only used for
  20143. things like "make installall".  There's no check for whether TM is in
  20144. MACHINES.
  20145.  
  20146. This leads me to the following bug: the MACHINES variable in a
  20147. "script" Makefile is set to all the known machine types.
  20148. (/sprite/lib/mkmf/mkmf.script is responsible for this.)  This is not
  20149. always correct behavior.  For example, /sprite/src/cmds/ranlib should
  20150. not be installed on a ds3100.
  20151.  
  20152. There is a sort-of related bug in the way TM is handled.  The TM
  20153. variable in a "script" Makefile defaults to whatever machine you ran
  20154. mkmf on.  So if I run mkmf on a sun3, then do a "make install" on a
  20155. symm, the script gets installed in cmds.sun3 (when I really want it
  20156. installed in cmds.symm).  It seems to me that scripts should be
  20157. handled more like programs.  That is, if MACHINES is only one machine
  20158. type, TM should default to that type.  If MACHINES is more than one
  20159. type, TM should default to $MACHINE.
  20160.  
  20161. Comments, anyone?
  20162.  
  20163. mike
  20164.  
  20165.  
  20166.  
  20167. Log-Number: 30373
  20168. Date: Tue, 13 Nov 90 17:07:31 PST
  20169. From: shirriff (Ken Shirriff)
  20170. Subject: ds5000 tftp is flaky
  20171.  
  20172. The tftp boot on the ds5000 takes over 4 minutes.  The problem is that
  20173. the tftp implementation on the ds5000 seems to be flaky.
  20174.  
  20175. (To review tftp: after establishing a connection, the server sends a
  20176. numbered 512 byte block and the client acknowledges reciept.)
  20177.  
  20178. On a normal machine we get:
  20179. server sends 1.
  20180. client acks 1.
  20181. server sends 2.
  20182. client acks 2.
  20183. etc.
  20184.  
  20185. On the ds5000 we get:
  20186. server sends 1.
  20187. client acks 1.
  20188. server sends 2.
  20189. client acks 1. (i.e. it doesn't accept 2)
  20190. server resends 2.
  20191. client acks 1.
  20192. server resends 2.
  20193. client acks 2. (finally)
  20194. server sends 3.
  20195. client acks 2.
  20196. etc.
  20197.  
  20198. We end up sending each block 4 times before the ds5000 accepts it.
  20199. This happens with tftp from ginger and from allspice, so it's not our
  20200. implementation problem. (Although tftp from ginger is about twice as fast
  20201. as from allspice.)
  20202.  
  20203. Ken
  20204.  
  20205.  
  20206. Log-Number: 30375
  20207. Date: Wed, 14 Nov 90 00:23:33 PST
  20208. From: tve@ginger.Berkeley.EDU (Thorsten von Eicken)
  20209. Subject: ip server on anise died in the last half hour
  20210.  
  20211. Is there a "checkIPserver" enrty in crontab for anise?
  20212.     TvE
  20213.  
  20214.  
  20215. Log-Number: 30376
  20216. From: rab (Robert A. Bruce)
  20217. Subject: anise out of memory
  20218. Date: Wed, 14 Nov 90 01:46:04 PST
  20219.  
  20220. Anise ran out of memory in Vm_RawAlloc.
  20221.  
  20222.         -bob
  20223.  
  20224.  
  20225.  
  20226. Log-Number: 30379
  20227. From: mendel (Mendel Rosenblum)
  20228. Subject: Re: anise out of memory 
  20229. Date: Wed, 14 Nov 90 10:36:38 PST
  20230.  
  20231.  
  20232. >Subject: anise out of memory
  20233. >Date: Wed, 14 Nov 90 01:46:04 PST
  20234. >
  20235. >Anise ran out of memory in Vm_RawAlloc.
  20236. >
  20237. >     -bob
  20238.  
  20239. Let's cross our fingers and hope this doesn't happen again.  It might of
  20240. been related to some file cache size playing around I didn't after I rebooted
  20241. anise.   I meant to set the maximum file cache size very large and managed
  20242. to set the miminum file cache size large. This could of cause anise to 
  20243. run out of memory if it needed to grow the kernel for file handles or 
  20244. something.   
  20245.  
  20246.     Mendel
  20247.  
  20248.  
  20249. Log-Number: 30377
  20250. Date: Wed, 14 Nov 90 09:00:09 PST
  20251. From: ouster (John Ousterhout)
  20252. Subject: /tmp not getting exported right
  20253.  
  20254. When I came in this morning I rebooted both tyranny and piracy
  20255. to move their swap directories to /swap2.  However, after I
  20256. did this neither machine had access to /tmp, for example:
  20257.  
  20258.     tyranny: cd /tmp
  20259.     /tmp: no such file or directory
  20260.  
  20261. In order to get access to /tmp I had to type "prefix -h tyranny -x /tmp"
  20262. on Anise, followed by "prefix -a /tmp -s anise" on Tyranny, and ditto
  20263. for Piracy.
  20264.                     -John-
  20265.  
  20266.  
  20267. Log-Number: 30378
  20268. From: mendel (Mendel Rosenblum)
  20269. Subject: Re: /tmp not getting exported right 
  20270. Date: Wed, 14 Nov 90 10:30:56 PST
  20271.  
  20272. The real problem here is that someone or something delete the remote
  20273. link /tmp.  This meant that tyranny and any other machine rebooted would
  20274. not find a /tmp.  A little known feature of prefixs was set into action 
  20275. next.  The "prefix -h tyranny -x /tmp" had the effect of only allowing
  20276. tyranny to import /tmp.  Using the "-h" option on a prefix that was 
  20277. previously freely exported has the effect of creating an export list with
  20278. only that host on it.  This explains why piracy couldn't import /tmp.  
  20279.  
  20280. We need to 
  20281.  
  20282. a) Find who or what is deleting /tmp.  This use to occur when we had /tmp
  20283.    as a remote link to orgeano and the problem went away when /tmp became
  20284.    a directory.
  20285. b) Either change the prefix export list stuff or make sure everyone knows
  20286.    how it works.
  20287.     
  20288.  
  20289. Also, I try to delete the prefix /tmp from anise in order to nuke the 
  20290. export restriction list.  The command prefix -x /tmp did nothing except 
  20291. produce the message:
  20292.     prefix coundn't delete prefix: there was an error
  20293. There was no additional info in the syslog.   To patch the problem without
  20294. rebooting anise, I explictly exported /tmp to every host with a swap 
  20295. directory pointed to in /swap. 
  20296.  
  20297.     Mendel
  20298.  
  20299.  
  20300. Log-Number: 30380
  20301. Date: Wed, 14 Nov 90 13:51:23 PST
  20302. From: mendel (Mendel Rosenblum)
  20303. Subject: Kernel bloat
  20304.  
  20305. Here is a quick summary of memory usage on anise:
  20306.  
  20307.     Kernel Size    19.5 Megabytes   61%
  20308.     File Cache Size  7.9 Megabytes   25%
  20309.     User Mem Size    4.4 Megabytes   13%
  20310.     Other          .2 Megabytes    1%
  20311.     Total Mem    32.0 Megabytes  100%
  20312.  
  20313. So on a 32 megabyte machine you get around 8 megabytes of usable file cache.
  20314.  
  20315. Of the kernel mem for the file system state: 
  20316.  
  20317. Local File handles:              5.6  Megabytes
  20318. File Descriptors attached to handles: 2.3  Megabytes
  20319. Buffers for LFS cleaning and writing: 1.25 Megabytes
  20320. Remote File handles:              1.0  Megabytes
  20321. ClientInfo state:              954  Kilobytes
  20322. Hash table for handles:              851  Kilobytes
  20323.  
  20324.  
  20325. So the file system state allocated for bookkeeping (handles, ClientInfo, hash
  20326. table) is over 8.4 megabytes. Another way of looking at this is the data 
  20327. describing the cached blocks is larger than the cached blocks.
  20328.  
  20329.     Mendel
  20330.  
  20331.  
  20332. Log-Number: 30381
  20333. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  20334. Date: Thu, 15 Nov 1990 15:45:37 PST
  20335. Subject: shadow stream offsets updated incorrectly
  20336.  
  20337.  
  20338. The offset in shadow streams are not updated correctly when a client process
  20339. does an lseek().  Lseeks must be propagated through to the server 
  20340. when processes that share a stream are on different hosts.  The following
  20341. illustrates the problem:
  20342.  
  20343. Process A opens a file.
  20344. Process A forks process B.
  20345. Process B migrates to a different machine.
  20346. Process A seeks to end of file.
  20347. Process B reads from file.
  20348.         This should return 0 (end of file).  Instead process B will read
  20349.         from the start of the file.
  20350.  
  20351. I was looking at the code in preparation for adding lseek RPCs for the
  20352. SOSP paper and couldn't figure out how it worked.  A little test program
  20353. I wrote shows that it doesn't.
  20354.  
  20355. John
  20356.  
  20357.  
  20358. Log-Number: 30382
  20359. From: mendel (Mendel Rosenblum)
  20360. Subject: Re: shadow stream offsets updated incorrectly 
  20361. Date: Thu, 15 Nov 90 16:41:22 PST
  20362.  
  20363. There might be an easy fix for this.  Since seeks() are done with
  20364. IOControls in Sprite ,just pass the IOC_REPOSITION ioctl on to the
  20365. server if the file is marked as non-cachable. The receiving stub
  20366. routine is already setup to handle this IOControl. This is the 
  20367. same change as I did with the WRITE_BACK ioctl get the clients to 
  20368. force files all the way thru to disk.
  20369.  
  20370.     Mendel
  20371.  
  20372.  
  20373. Log-Number: 30383
  20374. Date: Thu, 15 Nov 90 21:41:40 PST
  20375. From: root (The Sprite God)
  20376. Subject: anise crash
  20377.  
  20378. At about 9:15pm, anise went into the debugger.  Its screen was blank, so
  20379. I couldn't see what was wrong.  I also couldn't find a kernel to use for
  20380. debugging.  So I ended up continuing it, since there was a chance that it was
  20381. some mousetrap Mendel had mentioned to Thorsten earlier today.  It seemed to
  20382. recover nicely, but I don't know if I messed something up by continuing it.
  20383. I hope not.
  20384.  
  20385.  
  20386. Mary
  20387.  
  20388.  
  20389. Log-Number: 30384
  20390. Date: Fri, 16 Nov 90 11:46:35 PST
  20391. From: tve (Thorsten von Eicken)
  20392. Subject: X server on the sparc 1+
  20393.  
  20394. why is it still different? What do I have to do to get it started? When
  20395. the server hangs on a sparc, L1-K gives me the keyboard back, but ctrl-C
  20396. doesn't kill the server, or anything, so it's of no use. The only way
  20397. out is to reboot.
  20398.     TvE
  20399.  
  20400.  
  20401. Log-Number: 30385
  20402. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  20403. Date: Fri, 16 Nov 1990 12:35:32 PST
  20404. Subject: more shared stream problems
  20405.  
  20406. The bug I reported yesterday is a subset of a much larger bug.
  20407. When a process is migrated that is sharing a stream with another
  20408. process, both streams on both clients need to be marked as
  20409. remote-shared so that the offset is maintained on the server.  I
  20410. don't see any support for this in the code, nor does Brent's
  20411. dissertation talk about it. I'm not sure if the migrated stream is
  20412. marked correctly since I haven't looked at the code, but I do know
  20413. that the non-migrated stream is not marked.  For this to happen
  20414. the server must do a callback as part of the migration.  The bottom
  20415. line is that shared streams to cacheable files do not work if the
  20416. streams are on different clients.
  20417.  
  20418. John
  20419.  
  20420.  
  20421. Log-Number: 30387
  20422. Date: Fri, 16 Nov 90 13:13:27 PST
  20423. From: ouster (John Ousterhout)
  20424. Subject: Re: more shared stream problems
  20425.  
  20426. Perhaps I'm missing something, but something doesn't sound
  20427. right about John's last message.  Here's his message:
  20428.  
  20429.     The bug I reported yesterday is a subset of a much larger bug.
  20430.     When a process is migrated that is sharing a stream with another
  20431.     process, both streams on both clients need to be marked as
  20432.     remote-shared so that the offset is maintained on the server.  I
  20433.     don't see any support for this in the code, nor does Brent's
  20434.     dissertation talk about it. I'm not sure if the migrated stream is
  20435.     marked correctly since I haven't looked at the code, but I do know
  20436.     that the non-migrated stream is not marked.  For this to happen
  20437.     the server must do a callback as part of the migration.  The bottom
  20438.     line is that shared streams to cacheable files do not work if the
  20439.     streams are on different clients.
  20440.  
  20441. I'm not sure exactly what scenario is being referred to here, but let's
  20442. consider a couple of different cases:
  20443.  
  20444. 1. If there are two streams for the same file on two different clients,
  20445. there's no need to worry about the second stream when the first one
  20446. migrates (or when one of several processes sharing the first stream
  20447. migrates).  If the two streams are independent (from different opens)
  20448. then there's no problem in the first place;  if they are actually
  20449. handles for a single shared stream, then they should have each been
  20450. marked "shared" a long time ago, when one of them migrated away
  20451. from the other.
  20452.  
  20453. 2. If the scenario is two streams for the same file on the same client,
  20454. then by definition these are independent streams (separate access positions,
  20455. etc.), so there's nothing to worry about, right?
  20456.  
  20457. The only time action is needed is if a stream is shared on one client
  20458. and one of the sharers migrates away;  at this point both handles need
  20459. to get marked as shared.  Are you saying that in this situation the
  20460. "handle left behind" doesn't get marked?  The point where this should
  20461. occur, I think, is when the file server calls back to the source host
  20462. during migration to fetch the access position for the file.
  20463.  
  20464.                     -John-
  20465.  
  20466.  
  20467. Log-Number: 30389
  20468. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  20469. Date: Fri, 16 Nov 1990 13:39:50 PST
  20470. Subject: Re: more shared stream problems
  20471.  
  20472. Sorry that my original message wasn't very clear.  John O. hit the nail
  20473. on the head in his final paragraph.  Imagine a stream that is shared on
  20474. one client.  When one of the sharers migrates away both handles (actually
  20475. I think the object are referred to as "streams", hence some of the
  20476. confusion) must be marked as shared.  This currently does not happen.
  20477. This can trivially be proven by grepping for FS_RMT_SHARED in the kernel
  20478. sources.  The only place in which this bit is set in a stream's flags
  20479. is in Fsio_StreamMigClient() which is called on the IO server when
  20480. a stream migrates. For this reason I don't think the shared stream is 
  20481. marked appropriately on either client.  I know by experimentation that it
  20482. is not set in the "handle left behind".
  20483.  
  20484. John
  20485.  
  20486.  
  20487. Log-Number: 30386
  20488. Date: Fri, 16 Nov 90 12:54:33 PST
  20489. From: shirriff (Ken Shirriff)
  20490. Subject: Assault crash
  20491.  
  20492. Assault was totally dead and was repeating "TI: 7" on the screen.
  20493.  
  20494. Ken
  20495.  
  20496.  
  20497. Log-Number: 30388
  20498. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  20499. Date: Fri, 16 Nov 1990 13:00:28 PST
  20500. Subject: migration bug
  20501.  
  20502.  
  20503. I foolishly tried to have a process migrate itself.  On a sun3 
  20504. the Proc_Migrate() call fails with an "system call interrupted by signal"
  20505. error.  This sort of makes sense I guess.  On a ds3100 the machine
  20506. goes into the debugger when it tries to insert a duplicate entry in the
  20507. TLB when it sets up a COW segment.  Clearly this is incorrect.
  20508. If a process isn't allowed to migrate itself then Proc_Migrate() should
  20509. catch this early and print out a meaningful error message.
  20510.  
  20511. John
  20512.  
  20513.  
  20514. Log-Number: 30393
  20515. From: Fred Douglis <douglis@cs.vu.nl>
  20516. Subject: Re: migration bug 
  20517. Date: Mon, 19 Nov 90 09:40:49 +0100
  20518.  
  20519. a process is supposed to be able to migrate itself. however, this is
  20520. not something that's tested in day-to-day use, and may never have been
  20521. tested on the ds3100.  in fact, it's possible it wasn't tested after
  20522. the change long ago to treat migration as a signal.  in any case, yes,
  20523. this is definitely a bug.  i'd recommend deferring action on it until
  20524. the migration code is rewritten to deal with resuming system calls.
  20525. (in the best of all possible worlds, of course :)
  20526.  
  20527. Fred
  20528.  
  20529.  
  20530. Log-Number: 30390
  20531. Date: Sat, 17 Nov 90 17:36:05 PST
  20532. From: dingle (Adam T. Dingle)
  20533. Subject: can't unarchive large file
  20534.  
  20535. I have an archive (cl.tar) which contains a large file which I wish to
  20536. extract.  Unfortunately, I get some sort of file error when I attempt
  20537. to extract it:
  20538.  
  20539. % tar xvf cl.tar ./build/files.bu
  20540. -rw-r--r-- 2628/0 6824389 Mar 30 12:10 1990 ./build/files.bu
  20541. tar: Tried to write 4096 bytes to file, could only write -1:
  20542. ./build/files.bu: operation would block
  20543.  
  20544. At this point the tar process continues to run for awhile, but the
  20545. extracted file ends up being 1061376 bytes long, so presumably it is
  20546. being truncated somewhere.
  20547.  
  20548. There is plenty of disk space on the partition where I am extracting
  20549. the file.  The file "cl.tar" is in /pcs/cl/allegro.new.
  20550.  
  20551. Any suggestions?
  20552.  
  20553. -Adam
  20554.  
  20555.  
  20556.  
  20557. Log-Number: 30391
  20558. From: mendel (Mendel Rosenblum)
  20559. Subject: Re: can't unarchive large file 
  20560. Date: Sat, 17 Nov 90 17:46:11 PST
  20561.  
  20562.  
  20563. >I have an archive (cl.tar) which contains a large file which I wish to
  20564. >extract.  Unfortunately, I get some sort of file error when I attempt
  20565. >to extract it:
  20566. >
  20567. >% tar xvf cl.tar ./build/files.bu
  20568. >-rw-r--r-- 2628/0 6824389 Mar 30 12:10 1990 ./build/files.bu
  20569. >tar: Tried to write 4096 bytes to file, could only write -1:
  20570. >./build/files.bu: operation would block
  20571. >
  20572. >At this point the tar process continues to run for awhile, but the
  20573. >extracted file ends up being 1061376 bytes long, so presumably it is
  20574. >being truncated somewhere.
  20575. >
  20576. >There is plenty of disk space on the partition where I am extracting
  20577. >the file.  The file "cl.tar" is in /pcs/cl/allegro.new.
  20578. >
  20579. >Any suggestions?
  20580. >
  20581. >-Adam
  20582.  
  20583.  
  20584. This is caused by the bug I reported a while ago, Sprite log message 30223:
  20585.  
  20586. >From mendel  Thu Oct 18 10:24:33 1990
  20587. Received: by sprite.Berkeley.EDU (5.59/1.29)
  20588.     id AA922165; Thu, 18 Oct 90 10:24:33 PDT
  20589. Date: Thu, 18 Oct 90 10:24:33 PDT
  20590. >From: mendel (Mendel Rosenblum)
  20591. Message-Id: <9010181724.AA922165@sprite.Berkeley.EDU>
  20592. To: bugs
  20593. Subject: tar/sprite fs incompatiblity
  20594.  
  20595. For some reason tar opens files being created during extraction with the 
  20596. options: O_NDELAY|O_WRONLY|O_APPEND|O_CREAT|O_EXCL. The O_NDELAY causes
  20597. sprite to set the stream as NON_BLOCKING. Unfortunately, non-blocking streams
  20598. to regular files work differently in Sprite than Unix.  In Unix, writes to
  20599. non-blocking regular files behave the same as writes to  blocking regular 
  20600. files.  In Sprite, writes to non-blocking files return EWOULDBLOCK if the
  20601. file cache is full. This error causes the file not to be written. I think
  20602. the fix is to do the same thing we did for reads of files that block because
  20603. of cache full.
  20604.  
  20605.     Mendel
  20606.  
  20607.  
  20608.  
  20609. Log-Number: 30394
  20610. Date: Mon, 19 Nov 90 12:07:06 PST
  20611. From: mendel (Mendel Rosenblum)
  20612. Subject: LFS problems
  20613.  
  20614. I was able to patch /pcs this morning and it is back online.  No data was
  20615. lost.  I'm going to leave /swap2 down until I get back.  /user5 is ok.
  20616. It has a few minor problems that shouldn't cause any crashes.
  20617.  
  20618. The good news is that all the problems we are having with LFS are
  20619. from the same bug. The bad news is I haven't found the bug yet.  The problem
  20620. is that while laying data out in a segment it is recording incorrect 
  20621. disk address in the index that point at the blocks.  I haven't figured out
  20622. the sequence of events that causes it to happen. It appears to get back on
  20623. track for the next log write.  If you are luckly,  you overwrite all the data
  20624. with bad index pointers before you need to read them from disk again. I 
  20625. suspect that this might be some kind of glitch that occurs between shutdown
  20626. and attach. Until I figure out this problem we should probably avoid
  20627. doing lots of stuff in the LFS partitions.
  20628.  
  20629.     Sorry,
  20630.  
  20631.     Mendel
  20632.  
  20633.  
  20634. 1842.
  20635. Date: Tue, 20 Nov 90 12:27:05 PST
  20636. From: eklee (Edward K. Lee)
  20637. Subject: possible tx bug
  20638.  
  20639. Moving a tx window around using the geometry command produces a messed-up
  20640. vi window when vi is subsequently invoked.  Making the tx window smaller and
  20641. then larger again with the geometry command seems to solve the problem.
  20642.  
  20643. For example:
  20644. geometry =80x32+0-20
  20645. geometry =80x32-0-20
  20646. vi
  20647. <messed up vi window>
  20648.  
  20649. geometry =80x23+0+0
  20650. geometry =80x32-0-20
  20651. vi
  20652. <vi window ok>
  20653.  
  20654.  
  20655.  
  20656.  
  20657. 1843.
  20658. Date: Wed, 21 Nov 90 19:17:54 PST
  20659. From: Mike Kupfer <kupfer>
  20660. Subject: RCS file for spritehosts corrupted
  20661.  
  20662.   sage% rlog spritehosts
  20663.  
  20664.   RCS file:        RCS/spritehosts,v;   Working file:    spritehosts
  20665.   head:            1.81
  20666.   branch:          
  20667.   locks:           ;  strict
  20668.   access list:   
  20669.   symbolic names:
  20670.   comment leader:  "# "
  20671.   total revisions: 81;    selected revisions: 81
  20672.   description:
  20673.   database of sprite machines
  20674.   rlog error: Missing line number in edit script
  20675.   rlog aborted
  20676.  
  20677. Should we patch it by hand or restore it from tape?
  20678.  
  20679.  
  20680.  
  20681.  
  20682.  
  20683. 1844.
  20684. Date: Mon, 26 Nov 90 09:37:39 PST
  20685. From: ouster@dill (John Ousterhout)
  20686. Subject: Allspice crash
  20687.  
  20688. When I came in this morning Allspice was in the debugger with
  20689. a page fault in the kernel, pc = 0x0, address = 0x0.  I rebooted
  20690. it, but it got the same error again as soon as it got into
  20691. recovery.  When I explored with the debugger, it turned out that
  20692. Allspice was calling location 0 through a dispatch table, at
  20693. line 999 of fsioStream.c, in Fsio_StreamReopen.  The reason
  20694. for this was that reopenParamsPtr pointed to the following:
  20695.  
  20696.     streamID:
  20697.     type:        0
  20698.     serverID:    14
  20699.     major:        10
  20700.     minor:        39536
  20701.     ioFileID:
  20702.     type:        -1
  20703.     serverID:    0
  20704.     major:        0
  20705.     minor:        0
  20706.  
  20707. The -1 value of reopenParamsPtr->ioFileID.type led to the branch
  20708. to zero.
  20709.  
  20710. The machine causing the problem was coons (id 82);  to allow Allspice
  20711. to reboot, I L1-A'ed coons.  I'm not sure what's going on here, but
  20712. at the very least it seems like the server should check for a valid
  20713. type before dispatching, no?
  20714.  
  20715.                     -John-
  20716.  
  20717.  
  20718. 1845.
  20719. Date: Tue, 27 Nov 90 11:12:49 PST
  20720. From: ouster (John Ousterhout)
  20721. Subject: Changed List_ stuff back again
  20722.  
  20723. In trying to make a distributable version of Tk, I discovererd that
  20724. the List_ procedures don't compile without sys.h being available,
  20725. and that you recently added the "#include <sys.h>" lines (as part of
  20726. the prototyping?).  I've removed these #include statements and added
  20727. explicit panic declarations by hand.  The main reason for this is that
  20728. the file <sys.h> doesn't work in general:  you have to have the
  20729. *kernel's* sys.h.  User programs will pick up /usr/include/sys.h, which
  20730. is different (sigh) and won't work.  Also, I didn't want to have to
  20731. distribute all sorts of extra include files along with the List module.
  20732. Putting in the explicit declarations goes against our coding style,
  20733. but I couldn't think of anything else any cleaner (declare a separate
  20734. panic.h with only one declaration?  Add the panic declaration to
  20735. sprite.h?)
  20736.  
  20737.  
  20738.  
  20739.  
  20740. 1846.
  20741. Date: Tue, 27 Nov 90 13:08:30 PST
  20742. From: Mike Kupfer <kupfer>
  20743. Subject: Re: Changed List_ stuff back again 
  20744.  
  20745. Yes, that must have been done as part of the prototyping.
  20746.  
  20747. I thought I rebuilt the entire C library after making those changes. 
  20748. I wonder why it seemed to work then but is now causing you problems. 
  20749.  
  20750. I'm not particularly bothered by putting an explicit panic()
  20751. declaration in the .c files, though it might be a good idea to add a
  20752. comment saying why we violated the Sprite coding guidelines.  
  20753.  
  20754. Having said that, though, I think the panic() declaration should go in
  20755. a header file.  panic() is not a standard C library routine, so we're
  20756. going to have to provide it in the Tk distribution.  As long as we're
  20757. providing the routine itself, we might as well provide a header file
  20758. that declares it.
  20759.  
  20760. So, the question is, which one?  If we're providing sprite.h in the
  20761. distribution, that's one candidate, though it currently defines only
  20762. typedefs and constants.  Are there other general header files that
  20763. we're already planning to include in the distribution?
  20764.  
  20765.  
  20766.  
  20767.  
  20768.  
  20769. 1847.
  20770. Date: Tue, 27 Nov 90 15:50:58 PST
  20771. From: mendel (Mendel Rosenblum)
  20772. Subject: Re: X can't start with ginger down 
  20773.  
  20774. >Return-Path: shirriff
  20775. >Received: by sprite.Berkeley.EDU (5.59/1.29)
  20776. >    id AA272946; Tue, 27 Nov 90 15:39:54 PST
  20777. >Date: Tue, 27 Nov 90 15:39:54 PST
  20778. >From: shirriff (Ken Shirriff)
  20779. M>essage-Id: <9011272339.AA272946@sprite.Berkeley.EDU>
  20780. >To: bugs
  20781. S>ubject: X can't start with ginger down
  20782.  
  20783. >While ginger was down, xinit would wedge up.  Ginger came back up before
  20784. >I could find why it was wedging.  This happened on a sun4c and a decstation.
  20785. >Presumably xinit was accessing something mounted on ginger, but why?
  20786. >
  20787. >Ken
  20788.  
  20789. The problem is that ginger is the primary internet domain nameserver
  20790. for sprite and the X server does many name lookups when it is
  20791. started. Each name lookup timeouts on ginger before moving on to the
  20792. backup name server (arpa).  This causes X start up to take a very
  20793. long (30 minutes).  
  20794.  
  20795. By the way, Ginger didn't come back.   I switch the primary and
  20796. backup name servers so X now starts much faster. 
  20797.  
  20798.  
  20799.  
  20800.  
  20801. 1848.
  20802. Date: Tue, 27 Nov 90 23:08:47 PST
  20803. From: shirriff (Ken Shirriff)
  20804. Subject: Assault crashed
  20805.  
  20806. Assault crashed because it couldn't reinitialize the Lance chip.
  20807.  
  20808.  
  20809.  
  20810.  
  20811. 1849.
  20812. Date: Wed, 28 Nov 90 12:35:42 PST
  20813. From: mendel (Mendel Rosenblum)
  20814. Subject: Booting problem fixed
  20815.  
  20816. The problem with Sprite not booting was because /dev/console's descriptor got
  20817. changed to point at a different device.  The caused the open of /dev/console
  20818. in initsprite to fail causing initsprite to do a Sys_TestPrintf() system call
  20819. and exit.  The Sys_TestPrintf() system call prints "Obsolete system call" and
  20820. returns failure. I had to set a breakpoint in the routine printing
  20821. "Obsolete system call" to figure this out.  I renamed /dev/console to 
  20822. /dev/console.bad and created a correct /dev/console.   It looks like:
  20823.  
  20824. jaywalk% stat console
  20825. D-rw-r--r-- 1  ID=(0,1)       0 bytes  console
  20826.  Server  Domain     File #  Device:  Server    Type    Unit
  20827.      14      10      21545                1      23       5
  20828. Version 2    UserType 0x0
  20829. Created:         Jul  3 22:20:58 1990
  20830. Data modified:   Jul  3 22:20:30 1990
  20831. Descr. modified: Nov 28 11:38:02 1990
  20832. Last accessed:   Jul  3 22:14:58 1990
  20833.  
  20834.  
  20835.  
  20836.  
  20837. 1850.
  20838. Date: Wed, 28 Nov 1990 13:54:20 PST
  20839. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  20840. Subject: Reinit recv unit
  20841.  
  20842. The "Reinit recv unit" errors that are prevalent on allspice are because the
  20843. receive unit of the ethernet chip is out of resources and is discarding
  20844. packets.  The correct action to take in this case is to reinitialize the
  20845. unit.  I've seen similar behavior on a ds5000, which leads me to believe that
  20846. we are turning off interrupts for an excessively long time somewhere in
  20847. the kernel.  Solutions are to avoid turning off interrupts for so long,
  20848. and/or to increase the number of receive buffers.  I don't know the
  20849. feasibility of the latter.
  20850.  
  20851.  
  20852.  
  20853.  
  20854. 1851.
  20855. Date: Wed, 28 Nov 90 14:39:41 PST
  20856. From: ouster (John Ousterhout)
  20857. Subject: Re: Reinit recv unit
  20858.  
  20859. I think that the new kernel is leaving interrupts off longer than the
  20860. old ones did.  I don't know why this is happening, but I suspect the
  20861. changes that John made to the net module.  My troubles printing
  20862. are one example:  it continues to be nearly impossible for me to
  20863. print anything interesting while doing anything else interesting
  20864. on my workstation, but only with the new kernel.  The Reinit recv
  20865. unit problems are another example.  John, can you give some thought
  20866. to how we might track down the source of the long interrupts-off
  20867. intervals?  For example, would it be possible to use Ken's technique
  20868. of shortening the timer interrupt interval to identify the problem
  20869. spots?
  20870.  
  20871.  
  20872.  
  20873.  
  20874. 1852.
  20875. Date: Wed, 28 Nov 90 17:20:18 PST
  20876. From: shirriff (Ken Shirriff)
  20877. Subject: Net for sun4's
  20878.  
  20879. In order to run mop on the sun4, I'll need to change the net module to
  20880. accept the broadcast packets.  What drivers do the sun4 and sun4c's use?
  20881.  
  20882.  
  20883.  
  20884.  
  20885. 1853.
  20886. Date: Wed, 28 Nov 90 17:42:38 PST
  20887. From: mendel (Mendel Rosenblum)
  20888. Subject: Allspice glitch this morning
  20889.  
  20890. The cause of Allspice's glitch this morning remains a mystery.  The problem
  20891. appeared to be a network-wide deadlock centering around the file 
  20892. /etc/spritehosts. (For some reason, allspice was reporting the errors on
  20893. the file ",RCSt1925522" <10,90589> which is the inumber of /etc/spritehosts).
  20894. When I pulled the network interface out of allspice it gave many
  20895. consist timeouts of the form:
  20896.  
  20897. <consist> 11/28/90 10:43:26 parsley (20) RPC timed-out
  20898. ClientCommand, return-attrs msg to client 20 file ",RCSt1925522" <10,90589> failed 30002
  20899.     Client state killed: 1 refs 0 write 0 exec
  20900. <consist> 11/28/90 10:43:32 loiter (83) RPC timed-out
  20901. ClientCommand, return-attrs msg to client 83 file ",RCSt1925522" <10,90589> failed 30002
  20902.     Client state killed: 1 refs 0 write 0 exec
  20903.  
  20904. and it became usable again.  Reconnecting the network interface caused it to
  20905. hang up again.  I put sage into the debugger because it appeared to be
  20906. hanging consist rpcs and everything cleared up.  Debuggering sage didn't
  20907. turn up anything except it was in the progress of reopening handles with 
  20908. allspice. Maybe there is a deadlock involving recovery and consist callbacks.
  20909. It is also possible that it would of cleared itself up evening if I hadn't
  20910. killed sage.
  20911.  
  20912.  
  20913.  
  20914.  
  20915. 1854.
  20916. Date: Thu, 29 Nov 90 16:20:03 PST
  20917. From: ouster (John Ousterhout)
  20918. Subject: /tmp on Assault
  20919.  
  20920. I just noticed that /tmp is now on /user2 on Assault.  Is there a
  20921. particular reason why it's on Assault instead of Allspice?  Putting
  20922. it on Assault means that virtually no-one will be able to get work
  20923. done when Assault is down;  it used to be that Assault didn't affect
  20924. very many people.
  20925.  
  20926.  
  20927.  
  20928.  
  20929. 1855.
  20930. Date: Thu, 29 Nov 90 16:20:02 PST
  20931. From: shirriff (Ken Shirriff)
  20932. Subject: assault crash
  20933.  
  20934. Assault wasn't responding to pings, but it seemed okay from the console.
  20935. It wedged up when I tried to ping allspice from it.  When I tried to
  20936. debug it, it went into an infinite address error on load in Net_RawOutput
  20937. loop and wouldn't go into the debugger.
  20938.  
  20939.  
  20940.  
  20941.  
  20942. 1856.
  20943. Date: Thu, 29 Nov 90 16:26:29 PST
  20944. From: Mike Kupfer <kupfer>
  20945. Subject: Re: /tmp on Assault 
  20946.  
  20947. Didn't we put it on Anise for awhile?  I don't recall why we put it on
  20948. Assault instead of moving it back to Allspice, though, when we had LFS
  20949. problems last week.
  20950.  
  20951.  
  20952.  
  20953.  
  20954. 1857.
  20955. Date: Thu, 29 Nov 90 17:21:55 PST
  20956. From: shirriff (Ken Shirriff)
  20957. Subject: Random pmake problem
  20958.  
  20959. I've had a couple random errors:
  20960. as1: Error: , line 0: Obsolete or corrupt binasm file: /
  20961.  
  20962.  
  20963.  
  20964.  
  20965. 1858.
  20966. Date: Fri, 30 Nov 90 09:42:06 PST
  20967. From: ouster (John Ousterhout)
  20968. Subject: Allspice crash
  20969.  
  20970. Allspice crashed again today, with the same poison-packet problem
  20971. I reported last week ago.  I believe that this makes 3 crashes from
  20972. this problem in the last week.  I think that we should do something
  20973. about this *now*, before the problem starts happening so frequently
  20974. that we can't even keep Allspice up long enough to compile a new
  20975. kernel.  I think that two things need to be done:
  20976.  
  20977. 1. Modify the server code so that it detects a -1 ioStream.type in
  20978. reopen calls.  When this happens, I'd suggest that the server print
  20979. a message (so that the offending client can be identified) and
  20980. return a re-open error.
  20981.  
  20982. 2. Modify the client code to panic when a -1 type is about to be
  20983. sent off during a reopen.  This way we should be able to find the
  20984. cause and fix it.
  20985.  
  20986. Can someone take care of doing this ASAP?  Above all, I think
  20987. we need to get #1 done and installed for Allspice so that the
  20988. system can survive the poison packets.
  20989.  
  20990.  
  20991.  
  20992.  
  20993. 1859.
  20994. Date: Fri, 30 Nov 90 16:25:54 PST
  20995. From: mendel (Mendel Rosenblum)
  20996. Subject: make account script doesn't like sun4s
  20997.  
  20998. The script that creates accounts makes the directory cmds.sun3, cmds.ind, 
  20999. and cmds.ds3100 in the new account but not cmds.sun4.   
  21000.  
  21001.  
  21002.  
  21003.  
  21004. 1860.
  21005. Date: Fri, 30 Nov 90 16:55:11 PST
  21006. From: rab (Robert A. Bruce)
  21007. Subject: Re: make account script doesn't like sun4s 
  21008.  
  21009. The adduser script creates the user's directory by copying ~newuser
  21010. to the user's directory.  ~newuser didn't have a cmds.sun4
  21011. directory, so the target directory didn't get it either.
  21012.  
  21013. If new user directories are set up wrong, change the prototype directory
  21014. in /user1/newuser.
  21015.  
  21016.  
  21017.  
  21018.  
  21019.  
  21020. 1861.
  21021. Date: Sat, 1 Dec 90 19:04:57 PST
  21022. From: pmchen (Peter M. Chen)
  21023. Subject: assault is dead
  21024.  
  21025. It pings and fingers ok, but doesn't respond as a file server.
  21026.  
  21027.  
  21028.  
  21029.  
  21030. 1862.
  21031. Date: Sat, 1 Dec 90 19:12:50 PST
  21032. From: gibson (Garth Gibson)
  21033. Subject: remote mounting of SunOS disks
  21034.  
  21035. It appears that when I leave a shell for a long time with current directory
  21036. on ginger the connection is lost (nfsmount daemon dies?).  When I return,
  21037. "ls" reports no contents (it does not cause a new nfsmount to be created?).
  21038. However, when I "cd" to the dirtectory I'm currently in, the connection is
  21039. re-established (a new daemon is created?).
  21040.  
  21041. espionage 62> dirs
  21042. ~/unix/home/Thesis/Arrays/Text
  21043. espionage 63> ls
  21044. espionage 64> ls
  21045. espionage 65> cd ~/unix/home/Thesis/Arrays/Text
  21046. espionage 66> ls
  21047. total 411
  21048.    1 1_2_d.grn@                    1 growth.me@
  21049.    1 2d_hamming_eg.grn@           20 growth.n
  21050.    1 ASPLOS@                      16 hamming.grn
  21051.    1 ASPLOS_dir/                   1 hdr.me
  21052.    1 CMG@                          1 incharray.grn@
  21053.    1 CMG_dir/                     23 incorrect.hamming.grn
  21054.    3 ECC.problems                  1 interleave.grn@
  21055.    3 Int.talk/                     1 monte_carlo.grn@
  21056.    1 Makefile@                     1 nonbinaryhamming.awk
  21057.    1 Nd_ega.grn@                   1 outline@
  21058.    1 SCCS/                         1 raid.perf.grn@
  21059.    7 bib.me                        1 rel.tbl
  21060.   13 binary.me                     3 reliability2.grn
  21061.    1 check_matrix1.grn@            1 rotate.grn@
  21062.    7 check_sets.grn                1 stack.grn@
  21063.    1 chen_a.grn@                   4 tandem.grn
  21064.    1 chen_b.grn@                  78 text.me
  21065.    1 codes-2a.grn@                 6 text.me.old
  21066.    1 fracs/                      200 text.n
  21067.    1 gallager                      1 trlr.me
  21068.    1 growth.grn@
  21069.  
  21070.  
  21071.  
  21072.  
  21073. 1863.
  21074. Date: Sat, 01 Dec 90 19:26:04 PST
  21075. From: mendel (Mendel Rosenblum)
  21076. Subject: Re: assault 
  21077.  
  21078. For some reason the nfsmount for /home/ginger/raid was 
  21079. nowhere to be found.  I restarted it and access to
  21080. the files on /home/ginger/raid appears to be restored.
  21081.  
  21082.  
  21083.  
  21084.  
  21085.  
  21086. 1864.
  21087. Date: Sat, 01 Dec 90 23:53:41 PST
  21088. From: Mike Kupfer <kupfer>
  21089. Subject: making arrays of RPC counts 
  21090.  
  21091. >From rpc/rpcCall.h:
  21092.  
  21093.   /*
  21094.    * RPC_LAST_COMMAND is used to declare the rpc procedure switch
  21095.    * and arrays of counters for each rpc.
  21096.    */
  21097.  
  21098. This is a bit inconvenient, though, because the rpc numbers range from
  21099. 0 (RPC_BAD_COMMAND) to RPC_LAST_COMMAND inclusive, so you usually want
  21100. to define your array to be foo[RPC_LAST_COMMAND+1].  Would anyone
  21101. object if I added a line
  21102.  
  21103.   #define RPC_NUM_OF_COMMANDS    (RPC_LAST_COMMAND+1)
  21104.  
  21105.  
  21106.  
  21107.  
  21108.  
  21109. 1865.
  21110. Date: Sun, 2 Dec 1990 14:23:58 PST
  21111. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  21112. Subject: freopen
  21113.  
  21114. Freopen on stdout only appears to work if you've already printed something
  21115. to stdout.  Otherwise subsequent output never shows up.  I glanced through
  21116. the code for freopen but couldn't see anything obviously wrong.
  21117.  
  21118.  
  21119.  
  21120.  
  21121.  
  21122. 1866.
  21123. Date: Sun, 02 Dec 90 17:25:49 PST
  21124. From: Mike Kupfer <kupfer>
  21125. Subject: no check for decreasing RPC ID? 
  21126.  
  21127. I was looking at RpcServerDispatch() and noticed something odd.  There
  21128. is a check to see if a packet's RPC ID is different than the current
  21129. ID (the one that the server expects).  If it is, the comments and the
  21130. code say that this means the packet is for a new RPC.  However, the
  21131. check is for unequal values, not for an increasing value.  Does this
  21132. mean the server is (naively?) assuming that it won't get old packets
  21133. with discarded RPC IDs, or am I looking at the wrong code?
  21134.  
  21135.  
  21136.  
  21137.  
  21138.  
  21139. 1867.
  21140. Date: Sun, 02 Dec 90 19:10:15 PST
  21141. From: Mike Kupfer <kupfer>
  21142. Subject: bogus date after copying file from NFS
  21143.  
  21144.   sage% pwd
  21145.   /home/ginger/sprite/users/kupfer
  21146.   sage% ls -l mkfs
  21147.   -rwxr-xr-x  1 kupfer      32768 Aug 29  1989 mkfs*
  21148.   sage% cp mkfs ~/foo
  21149.   sage% ls -l ~/foo
  21150.   -rwxr-xr-x  1 kupfer      32768 Dec 31  1969 /users/kupfer/foo*
  21151.   sage% alias cp
  21152.   cp -ip
  21153.   sage% alias ls
  21154.   ls -F
  21155.  
  21156. Copying in the reverse direction (Sprite to Ginger) doesn't show this
  21157. problem.
  21158.  
  21159.  
  21160.  
  21161. Log-Number: 30435
  21162. From: mendel (Mendel Rosenblum)
  21163. Subject: Re: assault 
  21164. Date: Sat, 01 Dec 90 19:26:04 PST
  21165.  
  21166. For some reason the nfsmount for /home/ginger/raid was 
  21167. nowhere to be found.  I restarted it and access to
  21168. the files on /home/ginger/raid appears to be restored.
  21169.  
  21170.  
  21171.     Mendel
  21172.  
  21173.  
  21174. Log-Number: 30436
  21175. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  21176. Date: Tue, 4 Dec 1990 10:50:38 PST
  21177. Subject: newtee
  21178.  
  21179.  
  21180. Newtee seems to copy /dev/syslog into both an output file and stdout.
  21181. This means the output goes to /dev/console, which means you can't run X
  21182. on the machine very well. I had to kill the newtee on assault so
  21183. I could use the console.
  21184.  
  21185. John
  21186.  
  21187.  
  21188. Log-Number: 30442
  21189. Date: Tue, 4 Dec 90 14:26:22 PST
  21190. From: elm (ethan miller)
  21191. Subject: reappearing mail
  21192.  
  21193. Sometime between last night and just after the first assault crash today
  21194. (Tuesday 4 Dec about 1PM), about 5 messages were re-delivered to my
  21195. mailbox.  It's no big deal for me (I just deleted them), but it might
  21196. be a symptom of a problem elsewhere.
  21197.  
  21198. ethan
  21199.  
  21200.  
  21201. Log-Number: 30444
  21202. Date: Tue, 4 Dec 90 15:59:09 PST
  21203. From: pmchen (Peter M. Chen)
  21204. Subject: finger doesn't work
  21205.  
  21206. I am not able to run finger.  I get an "Illegal instruction" error, and
  21207. my syslog prints out
  21208.  
  21209. Bogus bp-trap
  21210.  
  21211.  
  21212. This is on garlic (ds3100).
  21213.  
  21214. Pete
  21215.  
  21216.  
  21217. Log-Number: 30445
  21218. Date: Tue, 4 Dec 90 16:00:09 PST
  21219. From: pmchen (Peter M. Chen)
  21220. Subject: finger problem just cleared up
  21221.  
  21222. Dunno what happened, but now there appears to be no problem.
  21223.  
  21224. I'm still curious as to what happened, though, so if anyone has any
  21225. clues...
  21226.  
  21227. Pete
  21228.  
  21229.  
  21230. Log-Number: 30446
  21231. Date: Tue, 4 Dec 90 16:59:43 PST
  21232. From: shirriff (Ken Shirriff)
  21233. Subject: Pmake problem
  21234.  
  21235. If I type "pmake TM=foo", in a kernel directory, I get:
  21236. ld -r $(sh: syntax error at line 2: `(' unexpected
  21237. Wouldn't a more intuitive error message be appropriate?
  21238.  
  21239.  
  21240. Log-Number: 30447
  21241. Date: Tue, 4 Dec 90 18:28:33 PST
  21242. From: bsw!adam@uunet.UU.NET (Adam de Boor)
  21243. Subject: Re:  Pmake problem
  21244.  
  21245. the message:
  21246.  
  21247. ld -r $(sh: syntax error at line 2: `(' unexpected
  21248.  
  21249. comes from the shell when there's a variable being used that's not defined
  21250. in pmake. if you say "ld -r $(LDFLAGS)" and LDFLAGS isn't defined, that's
  21251. exactly what the shell will see. This is one of the ways that pmake differs
  21252. from make. If you run "pmake -n TM=foo", you should be able to see what
  21253. variable isn't being defined.
  21254.  
  21255. a
  21256.  
  21257.  
  21258.  
  21259. Log-Number: 30449
  21260. Date: Wed, 5 Dec 90 10:33:20 PST
  21261. From: mendel (Mendel Rosenblum)
  21262. Subject: Allspice close to death
  21263.  
  21264. Allspice is very close to running out of RPC servers because of the number
  21265. of servers deadlocked.  The problem is that block 78 of the file
  21266. /sprite/cmds.sun4/cc1.68k is marked as having IO_IN_PROGRESS yet I can't
  21267. find any process doing IO on the block. A RPC from tyranny is trying to
  21268. read the block and is stuck waiting for the IO to finish.  This RPC is
  21269. waiting with the monitor lock in the cacheInfo struct held which causes
  21270. most other RPCs on the file such as opens and stats to wait.  Currently,
  21271. jaywalk, sedition, sage, boing, tyranny, treason, burble, sedition, 
  21272. sabotage, crackle, terrorism, sassafras, larceny, joyride, and espionage
  21273. all have hung RPCs to allspice. Fortunately, we have more RPCs servers on
  21274. allspice than we have sparcStations.  I could find no message in allspice's
  21275. 4meg syslog file pertaining to this file or block.  The only way out that 
  21276. I can think of is to reboot allspice. By the way, until we reboot try to 
  21277. avoid compiling for the sun3 on a sun4 or doing ls commands /sprite/cmds.sun4.
  21278.  
  21279.     Mendel
  21280.  
  21281.  
  21282. Log-Number: 30453
  21283. Date: Wed, 5 Dec 90 16:02:06 PST
  21284. From: shirriff (Ken Shirriff)
  21285. Subject: Assault crash
  21286.  
  21287. Assault crashed again when it tried to reinitalize the LE chip and failed.
  21288.  
  21289.  
  21290. Log-Number: 30454
  21291. From: mendel (Mendel Rosenblum)
  21292. Subject: Allspice deadlock
  21293. Date: Wed, 05 Dec 90 16:20:56 PST
  21294.  
  21295. Allspice hung up with one of its patented consistency deadlocks.  I pulled the
  21296. network interface out and it limped thru recovery and came back to life.
  21297.  
  21298.     Mendel
  21299.  
  21300.  
  21301. Log-Number: 30457
  21302. Date: Thu, 6 Dec 90 16:39:56 PST
  21303. From: ouster (John Ousterhout)
  21304. Subject: FYI
  21305.  
  21306. >From karels@okeeffe.Berkeley.EDU Wed Dec  5 22:22:59 1990
  21307. >From: karels@okeeffe.Berkeley.EDU (Mike Karels)
  21308. To: ouster@sprite.Berkeley.EDU, eric@mammoth.Berkeley.EDU
  21309. Cc: culler@sprite.Berkeley.EDU, bks@okeeffe.Berkeley.EDU
  21310. Subject: continuing network problems between mammoth and sprite
  21311. Date: Wed, 05 Dec 90 17:55:56 PST
  21312.  
  21313. Once again, we found mammoth sending about 300 packets/sec. to a Sprite
  21314. workstation when emacs got hosed, causing rather ragged network response
  21315. for the rest of the CS division.  In this case, the culprit seemed
  21316. to be cardamom, where David Culler was logged in.  David, do you know
  21317. what happened to your emacs window?
  21318.  
  21319. Last time I complained about this (in August), John said that someone
  21320. would be replacing the Sprite IP/TCP code within the next few months;
  21321. has any progress been made? Has anyone looked at emacs to find out why
  21322. it goes crazy?
  21323.  
  21324. If no one does anything to fix this problem, I'll bring the issue up
  21325. with the network committee.  According to the EECS network policy,
  21326. miscreant hosts can be disconnected from the network until there is
  21327. reason to believe that the problems have been fixed.
  21328.  
  21329.         Mike
  21330.  
  21331.  
  21332.  
  21333. Log-Number: 30464
  21334. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  21335. Date: Sat, 8 Dec 1990 16:17:04 PST
  21336. Subject: cc warnings
  21337.  
  21338.  
  21339. I encountered the following warnings while compiling the kernel for
  21340. the sun4c:
  21341.  
  21342. sun4c.md/uword.c: In function read_iureg:
  21343. sun4c.md/uword.c:80: warning: assignment between incompatible pointer types
  21344. sun4c.md/uword.c:84: warning: assignment between incompatible pointer types
  21345. ../Include/timer.h:234: warning: data definition lacks type or storage class
  21346. devNet.c: In function DevNet_FsOpen:
  21347. devNet.c:155: warning: `maxSize' may be used uninitialized in this function
  21348. sun4c.md/devSCSIC90.c:618: warning: unused variable `ctrlPtr'
  21349. sun4c.md/devSCSIC90.c: At top level:
  21350. sun4c.md/devSCSIC90.c:851: warning: `PrintRegs' defined but not used
  21351. fsconsistCache.c: In function Fsconsist_NumClients:
  21352. fsconsistCache.c:1306: warning: return-type defaults to `int'
  21353. sun4c.md/vmSun.c: In function VmMach_Init:
  21354. sun4c.md/vmSun.c:685: warning: unused variable `segTablePtr'
  21355. sun4c.md/vmSun.c: In function VmMach_NetMapPacket:
  21356. sun4c.md/vmSun.c:2388: warning: unused variable `pageNum'
  21357. sun4c.md/vmSun.c:2387: warning: unused variable `segNum'
  21358. sun4c.md/vmSun.c: In function VmMach_DMAAllocContiguous:
  21359. sun4c.md/vmSun.c:4222: warning: unused variable `initialized'
  21360. sun4c.md/vmSun.c:4215: warning: `beginAddr' may be used uninitialized in this function
  21361. sun4c.md/vmSun.c: In function VmMach_DMAFree:
  21362. sun4c.md/vmSun.c:4361: warning: value computed is not used
  21363. sun4c.md/vmSun.c: At top level:
  21364. sun4c.md/vmSun.c:4870: warning: `VmMachTrap' defined but not used
  21365. sun4c.md/vmSun.c:2561: warning: `FlushWholeCache' defined but not used
  21366.  
  21367.  
  21368. Log-Number: 30465
  21369. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  21370. Date: Sat, 8 Dec 1990 16:50:56 PST
  21371. Subject: sun4 cc warnings
  21372.  
  21373.  
  21374. I got the following warnings compiling for the sun4:
  21375.  
  21376. sun4.md/uword.c: In function read_iureg:
  21377. sun4.md/uword.c:80: warning: assignment between incompatible pointer types
  21378. sun4.md/uword.c:84: warning: assignment between incompatible pointer types
  21379. --- sun4.md/devJaguarHBA.o ---
  21380. sun4.md/devJaguarHBA.c:324: warning: `GetJaguarMem' defined but not used
  21381. devNet.c: In function DevNet_FsOpen:
  21382. devNet.c:155: warning: `maxSize' may be used uninitialized in this function
  21383. fsconsistCache.c: In function Fsconsist_NumClients:
  21384. fsconsistCache.c:1306: warning: return-type defaults to `int'
  21385. sun4.md/vmSun.c: In function VmMach_NetMapPacket:
  21386. sun4.md/vmSun.c:2437: warning: value computed is not used
  21387. sun4.md/vmSun.c: In function VmMach_DMAAllocContiguous:
  21388. sun4.md/vmSun.c:4222: warning: unused variable `initialized'
  21389. sun4.md/vmSun.c:4215: warning: `beginAddr' may be used uninitialized in this function
  21390. sun4.md/vmSun.c: In function VmMach_DMAFree:
  21391. sun4.md/vmSun.c:4361: warning: value computed is not used
  21392. sun4.md/vmSun.c: In function VmMach_32BitDMAAlloc:
  21393. sun4.md/vmSun.c:5117: warning: value computed is not used
  21394. sun4.md/vmSun.c: In function VmMach_32BitDMAFree:
  21395. sun4.md/vmSun.c:5170: warning: value computed is not used
  21396. sun4.md/vmSun.c: At top level:
  21397. sun4.md/vmSun.c:4870: warning: `VmMachTrap' defined but not used
  21398. sun4.md/vmSun.c:2561: warning: `FlushWholeCache' defined but not used
  21399.  
  21400.  
  21401. Log-Number: 30466
  21402. Date: Sat, 8 Dec 90 17:06:46 PST
  21403. From: pmchen@ginger.Berkeley.EDU (Peter M. Chen)
  21404. Subject: garlic death
  21405.  
  21406. >From eklee@sprite.Berkeley.EDU Fri Dec  7 20:30:46 1990
  21407. >Subject: HW problems with garlic.
  21408. >
  21409. >Crashed a few minutes ago.
  21410. >When I press the reset button garlic displays:
  21411. >7..6..5..4..3..2..1..
  21412. >FAILURE
  21413. >
  21414. >Power cycling garlic results in the same behavior.
  21415. >
  21416. >Has anyone experienced this problem before?
  21417. >
  21418. >Ed
  21419. >
  21420.  
  21421. When I try to boot using tftp, it fails with a short read error:
  21422. tftp()new: short read
  21423. couldn't load tftp()new
  21424.  
  21425. When I try to boot with mop, it gets farther, but then prints:
  21426. SII: wait on CMD_PHASE failed
  21427. Dev_SIIIntr: Bus reset!!
  21428. Warning: SII# Target 0 LUN 0 reset and current command terminated.
  21429.  
  21430. Horrible hardware death to another decstation or insidious assasination
  21431. on a spice?  You decide...
  21432.  
  21433. Terry, I switched garlic with mustard (which most recently was in
  21434. the CAD lab).  So the broken machine is in the CAD lab.
  21435.  
  21436. When the ds5000's come on line, I'll keep the name mustard here.
  21437.  
  21438. Pete
  21439.  
  21440.  
  21441. Log-Number: 30467
  21442. Date: Sat, 8 Dec 90 21:23:41 PST
  21443. From: pmchen (Peter M. Chen)
  21444. Subject: mail to allspice is down
  21445.  
  21446. I can't mail from apathy (sunOS) to allspice.  Apathy thinks allspice is
  21447. down.
  21448.  
  21449. Pete
  21450.  
  21451.  
  21452. Log-Number: 30468
  21453. Date: Sun, 9 Dec 90 10:23:21 PST
  21454. From: ouster (John Ousterhout)
  21455. Subject: Migd global log cancerous?
  21456.  
  21457. When I came in this morning the root disk was full, so I poked around
  21458. to see what was causing the trouble.  Among other things,
  21459. /sprite/admin/migd/global-log was over 20 Mbytes.  Does anyone know
  21460. (a) if this file needs to be kept at all, (b) if not, how to stop migd
  21461. from writing it, and (c) if so, how to at least truncate it?
  21462.  
  21463. I also noticed some other things:
  21464.  
  21465. 1. /tmp.old had about 20 Mbytes in it.  I just deleted the whole
  21466. directory (it appears to predate the first use of LFS for /tmp).
  21467.  
  21468. 2. /sprite/admin/dump/restore had about 10 Mbytes, apparently from
  21469. an old restoration.  I deleted the restore directory subtree.
  21470.  
  21471. 3. There was a 20-Mbyte file /dev/rxb1.nr, created about 8:00 this
  21472. morning.  I assumed that this file represents some sort of error, so
  21473. I deleted it.
  21474.  
  21475. 4. /sprite/boot/ds3100.md had over 20 Mbytes of kernels in it.
  21476. I deleted the following ones:
  21477.     ds3100.KS.243, shirriff2, sync.new, sync (all owned by Ken, and
  21478.     all older than June 1)
  21479.     fred (created by fred in early September)
  21480. Can everyone check this directory for old kernls and delete them?  I
  21481. make it a practice not to copy kernels into this directory, but just
  21482. to leave symbolic links from there to my kernel working directory.
  21483. I think this practice makes it easier to keep track of disk space
  21484. usage, and it reduces the likelihood of leaving clutter in /sprite/boot.
  21485.  
  21486.                     -John-
  21487.  
  21488.  
  21489. Log-Number: 30470
  21490. Subject: Re: Migd global log cancerous? 
  21491. Date: Sun, 09 Dec 90 12:05:06 PST
  21492. From: Mike Kupfer <kupfer>
  21493.  
  21494. /sprite/admin/migd/global-log is the log from the global migration
  21495. daemon.  I think it should be kept around, because that's where error
  21496. messages go.
  21497.  
  21498. There are a couple things I can think of to make the file smaller.
  21499. One is to reduce the logging/debugging level that migd is invoked with
  21500. (currently 2).  Another is to put something in, say, allspice's
  21501. bootcmds like
  21502.  
  21503.   mv /sprite/admin/migd/global-log /sprite/admin/migd/global-log.old
  21504.  
  21505. mike
  21506.  
  21507.  
  21508.  
  21509. Log-Number: 30477
  21510. From: Fred Douglis <douglis@cs.vu.nl>
  21511. Subject: Re: Migd global log cancerous? 
  21512. Date: Mon, 10 Dec 90 10:24:22 +0100
  21513.  
  21514. Moving the global log when allspice reboots is tricky, since the
  21515. migration daemon might already have the old one open.  of course,
  21516. usually the act of rebooting allspice causes a new migration daemon to
  21517. pop up, because the version numbers of the files change.  You should
  21518. be able to change the debugging level from 2 to 0 without ill effects.
  21519.  
  21520. Fred
  21521.  
  21522.  
  21523. Log-Number: 30471
  21524. Date: Sun, 9 Dec 90 12:05:07 PST
  21525. From: ouster (John Ousterhout)
  21526. Subject: LFS performance uneven?
  21527.  
  21528. When I switched my Tk development directory over to /user5 this
  21529. morning it felt like compiles were running slower than they used
  21530. to, so I ran some tests of complete recompiles of Tk/Wish for
  21531. the Sun-3, both in the LFS directory on /user5 and in my home
  21532. directory on /user1.  In both cases /tmp was on an LFS disk.  Here
  21533. are the results from several runs:
  21534.  
  21535. OFS:
  21536. 182.3u 50.5s 1:23 278%
  21537. 184.1u 49.8s 1:17 301%
  21538.  
  21539. LFS:
  21540. 184.4u 53.1s 2:10 182%
  21541. 181.8u 49.5s 1:17 299%
  21542. 184.5u 52.5s 1:56 203%
  21543. 183.7u 49.7s 1:11 327%
  21544.  
  21545. It appears from these numbers that LFS performance is inconsistent,
  21546. varying by as much as one minute (almost 50%).  Could it be that
  21547. cleaning is kicking in during the slow runs, and that this is the
  21548. source of the inconsistency?
  21549.                     -John-
  21550.  
  21551.  
  21552. Log-Number: 30473
  21553. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  21554. Date: Sun, 9 Dec 1990 16:01:29 PST
  21555. Subject: /dev/rxb1.nr
  21556.  
  21557.  
  21558. The creation of the 20 MB file "/dev/rxb1.nr" that John O. reported
  21559. is due to a bug in the dump program.   Dump was supposed to be
  21560. opening "/dev/exb1.nr", as I've named the exabyte connected to allspice.
  21561. Instead it opened up a different file and dumped to it thereby filling
  21562. the root partition.  At the very least the file should not be opened
  21563. with the create flag set.
  21564.  
  21565. John
  21566.  
  21567.  
  21568. Log-Number: 30474
  21569. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  21570. Date: Sun, 9 Dec 1990 16:03:53 PST
  21571. Subject: retraction
  21572.  
  21573.  
  21574. I'd like to retract my last bug report concerning /dev/rxb1.nr.
  21575. My typing was at fault, not dump.  I still think dump shouldn't create
  21576. the file, however.
  21577.  
  21578. John
  21579.  
  21580.  
  21581. Log-Number: 30479
  21582. From: mendel (Mendel Rosenblum)
  21583. Subject: Re: The story about anise/burble 
  21584. Date: Mon, 10 Dec 90 10:25:47 PST
  21585.  
  21586. > Return-Path: mgbaker
  21587. > Received: by sprite.Berkeley.EDU (5.59/1.29)
  21588. >     id AA79210; Sun, 9 Dec 90 17:24:48 PST
  21589. > Message-Id: <9012100124.AA79210@sprite.Berkeley.EDU>
  21590. > To: bugs
  21591. > Subject: The story about anise/burble
  21592. > Date: Sun, 09 Dec 90 17:24:45 PST
  21593. > From: Mary Baker <mgbaker>
  21594. > Burble was trying to fork an "sh -ev".  It was in the midst of trying to
  21595. > do a Vm_SegmentDup and copy a page for the segment from its swap space
  21596. > (VmCopySwapSpace).  The src swapFilePtr for the src segment had a server ID
  21597. > of anise, while the destination swapFilePtr had a server ID of allspice.
  21598. > The link /swap/56 points to allspice.  In Fsrmt_BlockCopy (called by
  21599. > Fs_PageCopy) the Rpc_Call to do the RPC_FS_COPY_BLOCK command uses
  21600. > the serverID in the src swapFilePtr.  The server (anise in this case) then
  21601. > executes Fsrmt_RpcBlockCopy for a file which is actually on allspice.  This
  21602. > routine does a FsrmtFileVerify on the handle, which returns NIL.
  21603. > This ends up causing STALE_HANDLE to be returned from the Rpc_Call, which
  21604. > causes Fs_PageCopy to decide the server is down and it waits for recovery
  21605. > and retries the copy forever.  It seems to me that there are a number of
  21606. > problems here, including the confusion of serverIDs and the infinite retrying
  21607. > of the access of a swap file which doesn't exist.  We've moved the swap
  21608. > directories back and forth between allspice and anise a couple of times now.
  21609. > Maybe that's not supposed to happen often, but perhaps should try to get this
  21610. > to work correctly anyway since it wouldn't be difficult.  It's funny that this
  21611. > is just happening now to burble, since its swap directory was moved to allspice
  21612. > from anise quite a while ago.
  21613. > Mary
  21614.  
  21615. We should make sure that tve or someone else didn't try to move the swap directory.
  21616. This problem is reported in the sprite log entry #30367 has happened everytime
  21617. I`ve try to move a swap directory of a sun4 while it was running. Sometimes it 
  21618. took a long time to happen. An old shell with a single page swapped out will cause
  21619. the problem next command you time at it.
  21620.  
  21621. Another possibility that occurred to me it an iteraction with migration.
  21622. Was the forking process migrated there?  Was the swap file being copied in "56" or 
  21623. some other swap directory?  What happens if a shell migrates from a machine with a
  21624. swap directory on anise to a machine will a swap directory on allspice and then trys
  21625. to fork?  The swap file for the shell will reside on anise but the newly created 
  21626. data and stack segments for the shell will reside on allspice.  1) This would happen
  21627. on sun4s because its only possible if copy-on-write is turned off. 2)
  21628. It also wouldn't
  21629. happen frequently because we infrequently migrate processes with vm segments active.
  21630. Most migration uses remote exec which should not (does not?) create swap files.
  21631. 3) Should be 100% reproducible with a simple test program that migrates and forks()
  21632. to a swap with a different swap server.
  21633.  
  21634.     Mendel
  21635.  
  21636.  
  21637. Log-Number: 30476
  21638. Subject: arson debugger loop
  21639. Date: Sun, 09 Dec 90 21:09:05 PST
  21640. From: Mike Kupfer <kupfer>
  21641.  
  21642. I found arson in a loop, continuously printing the following two lines
  21643. on the console.  I couldn't put it into the debugger, and
  21644. unfortunately I don't know what kernel it was running.
  21645.  
  21646.   MachKernelExceptionHandler: Address error on load: addr: 17 PC: 800a22b0
  21647.   Entering debugger with a TLB load address error exception at PC 0x800a22b0
  21648.  
  21649. mike
  21650.  
  21651.  
  21652. Log-Number: 30478
  21653. Date: Mon, 10 Dec 90 09:06:51 PST
  21654. From: ouster (John Ousterhout)
  21655. Subject: Allspice crash
  21656.  
  21657. Allspice died late last night with the same old poison-packet problem.
  21658. This time the culprit was chisum, a ds3100 over in Cory.  I put chisum
  21659. in the debugger while rebooting Allspice.
  21660.  
  21661.                     -John-
  21662.  
  21663.  
  21664. Log-Number: 30480
  21665. From: mendel (Mendel Rosenblum)
  21666. Subject: Larceny dies with floating point trap error
  21667. Date: Mon, 10 Dec 90 11:13:15 PST
  21668.  
  21669. Larceny died because of a problem with the interactions between the low 
  21670. level debugging and floating point support of the sun4.  Someone using
  21671. Michael E. Hohmeyer's account was debugging a program that did naughty
  21672. floating point opeations causing IEEE traps.  The user set a breakpoint
  21673. after the bad operation had started and before its result was used (ie between
  21674. the "fadds" instruction and the "stf" instruction).  This meant the
  21675. kernel was entered with a debugger trap and with a floating point trap 
  21676. waiting to happen.  The problem is that the kernel handles the debugger
  21677. trap and then returns to the user without checking for and handling the
  21678. floating point trap.  This causes the floating point unit to get upset
  21679. and report a sequence error causing Sprite to panic.  Until this problem
  21680. gets fixed I would advise:
  21681.     1) Avoid debugging floating point programs on the sun4.
  21682.     or
  21683.     2) Avoid naughty floating point operations.  Using doubles rather
  21684.        than singles may help.
  21685.  
  21686.     Mendel
  21687.  
  21688. ps, The routine causing the error was named:
  21689.  
  21690.     "calculate_tangent__FP6vertexPP17surface_embeddingPP7surface"
  21691.  
  21692. Maybe the original Unix linker's limit of routine names was a good idea.
  21693.  
  21694.  
  21695. Log-Number: 30481
  21696. Subject: problems with migd on roar
  21697. Date: Mon, 10 Dec 90 11:41:45 PST
  21698. From: Mike Kupfer <kupfer>
  21699.  
  21700. The migd running on roar thought it should be the master, even though
  21701. there seemed to be a valid master running on joyride.  The net result
  21702. was that you couldn't do anything using the migd on roar ("uptime",
  21703. "make", etc.).  I tried killing the migd and restarting it; that
  21704. didn't help.  I ended up zapping /sprite/admin/migd/pdev, and everyone
  21705. seems to be happy now.
  21706.  
  21707. mike
  21708.  
  21709.  
  21710. Log-Number: 30482
  21711. From: mendel (Mendel Rosenblum)
  21712. Subject: Bug in Mx tag lookup
  21713. Date: Mon, 10 Dec 90 16:00:30 PST
  21714.  
  21715.  
  21716. In /sprite/src/kernel/proc when I type "mx -t Proc_GetPCB" I get a notifier 
  21717. that looks like: 
  21718.  
  21719.    |------------------------|
  21720.    |     ____________       |
  21721.    |     | Continue |       |
  21722.    |     ------------       |     
  21723.    |------------------------|
  21724.    | bad pattern "^#define  |
  21725.    | Proc_GetPCB(pid)       |
  21726.    | (proc_PCBTable[pid &   |
  21727.    | PRO": Premature end of |
  21728.    | regular expression     |
  21729.    --------------------------
  21730.  
  21731.  
  21732.     Mendel
  21733.  
  21734.  
  21735. Log-Number: 30483
  21736. Subject: another unprintable document?
  21737. Date: Mon, 10 Dec 90 16:05:54 PST
  21738. From: Mike Kupfer <kupfer>
  21739.  
  21740. Can someone print /sprite/doc/pmake/tutorial.t?  The invocation is
  21741. supposed to be "lpr -h -n tutorial.t".  The Laserwriter in 608-2 seems
  21742. to be doing something (lots of flashing lights), but eventually lpq
  21743. says "Not responding for 1 minutes." and eventually the job goes away.
  21744. No paper ever appears.
  21745.  
  21746. mike
  21747.  
  21748.  
  21749. Log-Number: 30484
  21750. Date: Mon, 10 Dec 90 18:09:19 PST
  21751. From: sethg (Seth C. Goldstein)
  21752. Subject: I can't print from roar
  21753.  
  21754. I get message:
  21755.  
  21756. ginger.Berkeley.EDU: /usr/lib/lpd: Your host does not have line printer access
  21757.  
  21758.  
  21759. Log-Number: 30492
  21760. Subject: Re: I can't print from roar 
  21761. Date: Tue, 11 Dec 90 13:10:26 PST
  21762. From: Mike Kupfer <kupfer>
  21763.  
  21764. I added roar to hosts.equiv on Ginger.  Somebody apparently forgot to
  21765. do this when they set up roar.  (See step 7 of
  21766. /sprite/admin/howto/addNewHost).
  21767.  
  21768. mike
  21769.  
  21770.  
  21771. Log-Number: 30485
  21772. Date: Mon, 10 Dec 90 18:13:20 PST
  21773. From: shirriff (Ken Shirriff)
  21774. Subject: Shutdown doesn't sync disks!
  21775.  
  21776. As I suspected, shutdown does not successfully flush the cache.  I
  21777. verified this on a sun3 running new and on a ds3100.  I believe the
  21778. problem is the following code:
  21779.  
  21780. CacheWriteBack(writeBackTime, blocksSkippedPtr, writeTmpFiles)
  21781. ...
  21782.     /*
  21783.      * Wait for all block cleaners to go idea before returning.
  21784.      */
  21785.     while ((numBackendsActive > 0) && !sys_ShuttingDown) {
  21786.         (void) Sync_Wait(&writeBackComplete, FALSE);
  21787.     }
  21788. }
  21789.  
  21790. I don't understand the cryptic comment, but this code waits until all the
  21791. writebacks are complete.  But if we're shutting down, it skips the wait!
  21792.  
  21793. Mendel, do you know what this code should do, so I can fix it?
  21794.  
  21795. This bug could explain some of the mail file trashing we've encountered,
  21796. as well as various annoying things that happen to me after reboots.
  21797.  
  21798. Ken Shirriff                shirriff@sprite.Berkeley.EDU
  21799.  
  21800.  
  21801. Log-Number: 30486
  21802. Date: Mon, 10 Dec 90 20:28:49 PST
  21803. From: gibson (Garth Gibson)
  21804. Subject: Clove meltdown
  21805.  
  21806. Ann's machine (clove I think) is going into the debugger twice a second
  21807. right now.  It seems to through the line "ICMP Echo" at the bottom of the
  21808. screen after each entry to the debugger then it overwrites this message
  21809. with the next entering debugger message:
  21810.  
  21811. MachKernel Exception Handler: Address error on load: addr: 17 PC: 8009bc90
  21812. Entering debugger with a TLB load address error .....
  21813.  
  21814. garth
  21815.  
  21816. ps I left it doing this
  21817.  
  21818.  
  21819. Log-Number: 30487
  21820. Date: Mon, 10 Dec 90 22:26:13 PST
  21821. From: pmchen (Peter M. Chen)
  21822. Subject: X server dies
  21823.  
  21824. When running viewlogic on giverny (in Cory) to Evans, my X server goes into
  21825. the DEBUG state.
  21826.  
  21827. It opens the window fine, but dies after the first mouse event.
  21828.  
  21829. Pete
  21830.  
  21831.  
  21832. Log-Number: 30488
  21833. Date: Mon, 10 Dec 90 22:32:53 PST
  21834. From: pmchen (Peter M. Chen)
  21835. Subject: followup on X server dying
  21836.  
  21837. The application (viewlogic) was running remotely on a sparcstation (giverny)
  21838. in Cory.
  21839.  
  21840. The local (displaying) machine was mustard (a ds3100).
  21841.  
  21842. When the same thing was tried with the displaying machine being espionage
  21843. (sparcstation), it worked.
  21844.  
  21845. Pete
  21846.  
  21847.  
  21848. Log-Number: 30491
  21849. Subject: Re: followup on X server dying 
  21850. Date: Tue, 11 Dec 90 11:48:11 PST
  21851. From: Mike Kupfer <kupfer>
  21852.  
  21853. This is probably the byte-swapping death that Mario Silva was
  21854. experiencing a couple months ago.  I know where to make the server
  21855. fix, I just haven't gotten around to it yet.  I'll bump it up in my
  21856. Todo list.
  21857.  
  21858. By the way, if it is the same bug, the client is not totally
  21859. blameless.  It is generating a bogus length value--see
  21860. ~kupfer/x_byteswap_bug.
  21861.  
  21862. mike
  21863.  
  21864.  
  21865. Log-Number: 30489
  21866. Subject: migration problem?
  21867. Date: Tue, 11 Dec 90 01:36:24 PST
  21868. From: Mary Baker <mgbaker>
  21869.  
  21870. Has anyone else received the following error while trying to compile stuff?
  21871. This was on a sun4c.
  21872.  
  21873.  
  21874. Warning: SigMigSend:Error trying to signal 11 to process 1355b (2492c on host 73):
  21875.     the specified process's user ID does not match the current process's uid
  21876.  
  21877. Mary
  21878.  
  21879.  
  21880. Log-Number: 30493
  21881. Subject: Rpc daemon timeout queue entry/reclaim servers bug
  21882. Date: Tue, 11 Dec 90 18:57:24 PST
  21883. From: Mary Baker <mgbaker>
  21884.  
  21885. There's good and bad news.  I've stuck in a fix to keep the rpc daemon
  21886. time out queue entry from being rescheduled when it hasn't been descheduled.
  21887. John Hartman's debug tracing found this bug for us.
  21888.  
  21889. But there is nothing in the code to keep RpcReclaimServers from being called
  21890. more often than it should be, not giving clients enough of a chance to
  21891. use their channels to the rpc servers.  This is already possible in our
  21892. system and doesn't appear to be a problem, but we should keep an eye on it
  21893. and also put in a fix at some point.  The first problem was more critical,
  21894. though.
  21895.  
  21896. Mary
  21897.  
  21898.  
  21899. Log-Number: 30494
  21900. Subject: stale handle on swap file
  21901. Date: Tue, 11 Dec 90 19:02:20 PST
  21902. From: Mary Baker <mgbaker>
  21903.  
  21904. I put in a fix so that getting a stale handle on a swap file won't put you
  21905. into infinite recovery - it will instead return a swap error.  My question is
  21906. whether we want to do the same thing in Fs_PageRead.  Here too, if it
  21907. gets a stale handle it goes into retrying recovery.  Why would we want to
  21908. do that on a stale handle there?  Am I misunderstanding the meaning of a
  21909. stale handle?
  21910.  
  21911. Mary
  21912.  
  21913.  
  21914. Log-Number: 30497
  21915. From: mendel (Mendel Rosenblum)
  21916. Subject: Re: stale handle on swap file 
  21917. Date: Wed, 12 Dec 90 10:34:12 PST
  21918.  
  21919. >
  21920. > I put in a fix so that getting a stale handle on a swap file won't put you
  21921. > into infinite recovery - it will instead return a swap error.  My question is
  21922. > whether we want to do the same thing in Fs_PageRead.  Here too, if it
  21923. > gets a stale handle it goes into retrying recovery.  Why would we want to
  21924. > do that on a stale handle there?  Am I misunderstanding the meaning of a
  21925. > stale handle?
  21926. > Mary
  21927.  
  21928. I believe that the problem here is not the going thru recovery when a 
  21929. stale handle error is returned but returning stale handle error
  21930. when recovery won't repair the problem.  The BlockCopy RPC 
  21931. could return stale handle and have recovery fix everything. For example,
  21932. consider the case that the block copy is the first RPC following a network
  21933. partition that the server detected but the client didn't.  The BlockCopy
  21934. would return stale handle because the server had cleaned up the client state.
  21935. Recovery would re-establish the state and the BlockCopy would be retry successfully.
  21936. The correct thing is to start recovery when the server returns stale handle.
  21937. The problem here was the server side of the block copy RPCs should  return
  21938. illegal argument (src and/or dst not local files) rather stale handle in this case.
  21939. By convention in Sprite, the server-side stubs bindly trust anything pasted 
  21940. to them so it probably be in keeping with tradition if Fsrmt_BlockCopy was
  21941. modified not do the RPC if the src and dst aren't on the same machine.
  21942.  
  21943. As currently modified, the code in Fsrmt_BlockCopy() does a Fsutil_WantRecovery()
  21944. yet its caller in Fs_PageCopy() no longer does a Fsutil_WaitForRecovery().  I 
  21945. don't understand this Want/Wait stuff well enough to know if this will cause 
  21946. problems. 
  21947.  
  21948. It occurs to me that the easiest way to fix this problem is to modify Fs_PageCopy
  21949. to call Fs_PageRead and Fs_PageWrite if the src and dst aren't on the same 
  21950. machine.  This would fix the problem without introducing some three machine
  21951. RPC that a higher performance solution would.
  21952.  
  21953.     Mendel
  21954.  
  21955.  
  21956. Log-Number: 30496
  21957. From: Fred Douglis <douglis@cs.vu.nl>
  21958. Subject: more distribution bugs: booting clients
  21959. Date: Wed, 12 Dec 90 14:23:15 +0100
  21960.  
  21961. wonder of wonders, i finally got a second sun 3/60 to run sprite.  i
  21962. finally booted it, but only after several problems:
  21963.  
  21964. 1) the addhost program relies on spritehosts being RCS'ed, yet there's
  21965. no RCS'ed version.  at least, not here.  perhaps it should be more
  21966. robust about the existence of one.  same for hosts.equiv and various
  21967. others.  addhost checks to see if the file is checked out but not to
  21968. see if it's RCSed in the first place.
  21969.  
  21970. 2) the distribution instructions, addhost, and howto/addNewHost, are
  21971. all very berkeley-specific.  they talk about ginger, etc.  they don't
  21972. talk about what to do to boot a diskless client from the sprite root
  21973. file server.  
  21974.  
  21975. 3) the support for diskless clients on the distribution was totally
  21976. nonexistent.  i had to ftp stuff from berkeley.  
  21977.  
  21978.     - /sprite/boot contained a directory, "TM.md," with a file
  21979. called "sun3" that was 8 megabytes long.  not likely to be a real
  21980. kernel.  i moved TM.md to sun3.md and copied /vmsprite to
  21981. sun3.md/sprite.   i copied netBoot from berkeley.
  21982.  
  21983.     - i had to dredge up varied arcane knowledge about booting a
  21984. diskless workstation and about booting sprite.  saying
  21985.  
  21986.         b le()
  21987.  
  21988. didn't work.  saying 
  21989.  
  21990.         b le(,42)sun3.md/sprite
  21991.  
  21992. did.  note for whoever might revise the instructions: at berkeley, we
  21993. use the last two octets of the internet address (e.g., 961b).  here i
  21994. had to use only the last octet.
  21995.  
  21996. 4) addhost had a couple of more major problems.  first, it didn't
  21997. convert the internet address into upper case for /sprite/boot.  i
  21998. presumed it would if needed.  second, it made /sprite/boot/c01fe78
  21999. instead of c01fe708.  -
  22000.  
  22001. Fred
  22002.  
  22003.  
  22004. Log-Number: 30498
  22005. Subject: ds3100: "page number offset out of page table"
  22006. Date: Wed, 12 Dec 90 12:22:23 PST
  22007. From: Mike Kupfer <kupfer>
  22008.  
  22009.  
  22010. ------- Forwarded Message
  22011.  
  22012. Date: Wed, 12 Dec 90 02:42:43 PST
  22013. >From: sethg (Seth Copen Goldstein)
  22014. To: root@sprite.Berkeley.EDU
  22015. Subject: roar crashed at 3am with following:
  22016.  
  22017. Page number offset out of page table
  22018. sprite version 1.075 (ds3100) 11 sep 90 
  22019. debug at address 0x800c39cc
  22020.  
  22021. also, F1-A did nothing, had to reset machine.  what did I do wrong?
  22022.  
  22023. ------- End of Forwarded Message
  22024.  
  22025.  
  22026.  
  22027. Log-Number: 30499
  22028. Subject: ds3100: reserved instruction
  22029. Date: Wed, 12 Dec 90 12:23:06 PST
  22030. From: Mike Kupfer <kupfer>
  22031.  
  22032.  
  22033. ------- Forwarded Message
  22034.  
  22035. Date: Wed, 12 Dec 90 11:29:11 PST
  22036. >From: sethg (Seth Copen Goldstein)
  22037. To: root@sprite.Berkeley.EDU
  22038. Subject: Twice in three hours: system crashed with reserved instruction
  22039.  
  22040. 4:00 am
  22041. MachKernelExceptionHandler: Resererved Instruction
  22042. Entered debugger With a reserved instruction exception at pc=0x8ea80570
  22043.  
  22044. Do you want this info?  What should I do during daylight hours?  Help - 
  22045. I am trying to run a 40hour long simulation and the crashes are killing me!
  22046.  
  22047. ------- End of Forwarded Message
  22048.  
  22049.  
  22050.  
  22051. Log-Number: 30500
  22052. From: mendel (Mendel Rosenblum)
  22053. Subject: Anise crash
  22054. Date: Wed, 12 Dec 90 15:23:07 PST
  22055.  
  22056. Anise deadlocked today so I took a core dump and rebooted it. 
  22057. My best guess as to what happen was that the timer call back
  22058. queue wasn't being processed.  This meant that everything that
  22059. depended on timer callbacks quit working.  I have know idea what
  22060. caused this problem. 
  22061.  
  22062.     Mendel
  22063.  
  22064.  
  22065. Log-Number: 30502
  22066. From: mendel (Mendel Rosenblum)
  22067. Subject: /hosts/{assault allspice anise}/bootcmds does exit
  22068. Date: Wed, 12 Dec 90 17:01:09 PST
  22069.  
  22070. I was adding the command to /hosts/anise/bootcmds to redirect the
  22071. syslog into a file so I looked how it was done on allspice and assault.
  22072. It was done by adding the command:
  22073.  
  22074. newtee -inputFile /dev/syslog /sprite/syslogs/$HOST
  22075.  
  22076. to the end of /hosts/<hostname>/bootcmds.   
  22077.  
  22078. Since newtee doesn't exit, this means that the bootcmds script never
  22079. exits.  Was this done for a reason? Does it cause any problems for the
  22080. boot script not to exit?  
  22081.  
  22082.  
  22083.     Mendel
  22084.  
  22085.  
  22086. Log-Number: 30503
  22087. From: mendel (Mendel Rosenblum)
  22088. Subject: gdb.new inserts ^P over rlogin connections
  22089. Date: Wed, 12 Dec 90 17:56:54 PST
  22090.  
  22091.  
  22092. When I used gdb.new while rlogin'ed into a Sprite machine I get "^P"
  22093. characters inserts in different random places.  The problem doesn't
  22094. occur when I uses telnet. I suspect it is a problem in "rlogin" or
  22095. "rlogind".   The new gdb appears to use much more and exotic ioctl's
  22096. on stdin than the old one.   
  22097.  
  22098. Also, if you type control-Z in gdb.new get the message 
  22099. "ioctl: bad command TIOCSTART".   It appears to work correct.
  22100.  
  22101.     Mendel
  22102.  
  22103.  
  22104. Log-Number: 30504
  22105. Subject: chown of dev on murder failed
  22106. Date: Wed, 12 Dec 90 18:34:46 PST
  22107. From: Mike Kupfer <kupfer>
  22108.  
  22109. I tried to make root the owner of one of the Exabyte devices on murder.
  22110.  
  22111.   sage-1# chown root /hosts/murder/dev/exabyte
  22112.  
  22113. The chown apparently succeeded, but it provoked some other problems.  I
  22114. got the following in my syslog:
  22115.  
  22116.   <setIOAttr> 12/12/90 18:26:09 murder (17) RPC timed-out
  22117.   Fsrmt_SetIOAttr failed <30002>: device <5,80> at server 17
  22118.  
  22119. and there are seven messages 
  22120.  
  22121.   RpcResend: RPC 23, client 33, RPC seq # 1fda9, forgot reply?
  22122.  
  22123. (all the same) on murder's console.
  22124.  
  22125. mike
  22126.  
  22127.  
  22128. Log-Number: 30505
  22129. Subject: Re: chown of dev on murder failed 
  22130. Date: Wed, 12 Dec 90 18:36:56 PST
  22131. From: Mike Kupfer <kupfer>
  22132.  
  22133. (Oops, I wrote the subject line before I did an "ls" to see whether
  22134. the chown really worked.)    /mike
  22135.  
  22136.  
  22137. Log-Number: 30506
  22138. Subject: TCP problem found, not sure about fix
  22139. Date: Wed, 12 Dec 90 20:41:32 PST
  22140. From: Mike Kupfer <kupfer>
  22141.  
  22142. I found our end of the TCP problem.  The TCP input code is supposed to
  22143. check whether the socket is still in use when it receives data.  If
  22144. not, it's supposed to send a RESET to the other end.  Our function
  22145. Sock_HasUsers checks the reference count on the socket data
  22146. structure.  The bug is that Sock_Close doesn't decrement the reference
  22147. count.  The code to do it is there, but it's commented out.
  22148.  
  22149. I suppose I could just uncomment that line of code, but I'm nervous
  22150. about the potential side effects.  This is the RCS log line for the
  22151. relevant changes:
  22152.  
  22153.   revision 1.17        
  22154.   date: 89/08/10 16:15:59;  author: douglis;  state: Exp;  lines added/del: 63/77
  22155.   JKO changes for ipserver duplicate frees, etc.
  22156.  
  22157. So, John or Fred: is the line commented out because it was thought to
  22158. be a no-op?
  22159.  
  22160. mike
  22161.  
  22162.  
  22163. Log-Number: 30507
  22164. Date: Thu, 13 Dec 90 09:15:09 PST
  22165. From: ouster (John Ousterhout)
  22166. Subject: Re: TCP problem found, not sure about fix
  22167.  
  22168. Thanks for tracking this down, Mike!  I took a look at the code to
  22169. try to remember why the following line is commented out:
  22170.  
  22171.     /*    sharePtr->clientCount--; */
  22172.  
  22173. First of all, the rlog comment "JKO changes for ipserver duplicate
  22174. frees, etc." refers to a nasty problem we had with our ipServers for
  22175. a long time, whereby they used memory that had been freed, causing
  22176. storage corruption and crashes.  If you think our ipServer reliability
  22177. is bad now, you should have seen it in the old days.  Anyhow, I found
  22178. the bug and fixed it in sockOps.c version 1.17.  However, I don't
  22179. think that the bug explains the line you found commented out.  The
  22180. actual bug fix is some new code at about line 811 of sockOps.c:
  22181.  
  22182.     /*
  22183.      * Transfer the pdev request buffer from the old socket
  22184.      * to the new one, so it can be freed properly when the
  22185.      * new socket is deleted.
  22186.      */
  22187.     
  22188.     connSockPtr->reqBufSize = privPtr->sharePtr->reqBufSize;
  22189.     connSockPtr->requestBuf = privPtr->sharePtr->requestBuf;
  22190.  
  22191. I only vaguely remember the problem, but I believe it had to do
  22192. with the wrong pdev buffer being freed at certain times.
  22193.  
  22194. It doesn't seem like me to make a bug fix by commenting out a line of
  22195. code without any additional comments to explain why.  In addition, I
  22196. also see that version 1.16 does not have the line at all.  In other
  22197. words, the file went from having nothing there to having a line
  22198. commented out.  There was never a version of the file that had the
  22199. code in uncommented form.  I suspect that what happened is I noticed
  22200. that the reference count was never getting decremented, added the line,
  22201. discovered that the ipServer didn't work correctly any more, commented
  22202. the line out, saw that the ipServer worked again, and forgot to
  22203. remove the commented line before checking the file in.
  22204.  
  22205. The right thing to do is probably to un-comment the line and see what
  22206. breaks.  I suspect that something will break, but I don't remember what.
  22207.  
  22208.                     -John-
  22209.  
  22210.  
  22211. Log-Number: 30508
  22212. Date: Thu, 13 Dec 90 12:07:17 PST
  22213. From: sethg (Seth Copen Goldstein)
  22214. Subject: arson and pride crashes (maybe they were me?)
  22215.  
  22216. I came in this morning to find that arson and pride had crashed.  I had
  22217. been running my simulations on them, so I might be the culprit.  If you
  22218. think that it is so then I will be happy to provide you with my simulation
  22219. so that you can see where it happened.  No rush, I found other machines to
  22220. do the simulation on.
  22221.  
  22222. seth
  22223.  
  22224. p.s. I had also miged out a process to somewhere else which died, but I can't
  22225. remember which machine.
  22226.  
  22227.  
  22228. Log-Number: 30509
  22229. Date: Thu, 13 Dec 90 13:29:39 PST
  22230. From: pmchen (Peter M. Chen)
  22231. Subject: arson and pride crashes
  22232.  
  22233. I have simulations which are also prone to generating horrible crashes when
  22234. they run for a long time.  This is only on ds3100's.  We've never tracked
  22235. down the problem, though I have a script which will repeat the crash
  22236. every time, at the exact same place.
  22237.  
  22238. After the machine crashes, the screen goes blank, and the lights at the
  22239. back of the machine are all on.  The machine does not respond to F1-A,
  22240. and I think we had to either power cycle it or hit the reset button.  Maybe
  22241. even the reset button didn't work.  I forget.  Does this sound like yours?
  22242.  
  22243. Anyway, Mendel had a program which would crash both under sprite and ultrix.
  22244. We suspected that it might be a hardware problem, but we never verified by
  22245. running my program on dill (an ultrix ds3100).  Maybe your problem is the
  22246. same--try running it on dill.
  22247.  
  22248. Pete
  22249.  
  22250.  
  22251. Log-Number: 30510
  22252. Date: Thu, 13 Dec 90 13:32:44 PST
  22253. From: sethg (Seth Copen Goldstein)
  22254. Subject: arson and pride crashes
  22255.  
  22256. The simulation runs fine under ultrix.  It also seems that these also crash
  22257. at the same place (the log files end up being the same size).
  22258.  
  22259. The screen does not always go blank (2 out of three times it didn't).  However,
  22260. F1-A does not work and reset is required.
  22261.  
  22262. seth
  22263.  
  22264.  
  22265. Log-Number: 30514
  22266. Date: Thu, 13 Dec 90 15:09:23 PST
  22267. From: gibson (Garth Gibson)
  22268. Subject: why is raid1 so slow ?
  22269.  
  22270.  
  22271. raid1 64> ps -au | m
  22272. USER     PID   %CPU %MEM  SIZE   RSS STATE   TIME PR COMMAND
  22273. root     74d11 28.6  0.1   128   112 READY  87:02    /sprite/daemons/cron
  22274. root     34d13  1.9  0.4   560   480 RWAIT 158:46    /sprite/daemons/ipServer
  22275. gibson   74d24  0.9  0.2   256   248 WAIT    0:06    -csh
  22276. root     e4d38  0.8  0.1   256   152 READY   0:00    more
  22277. gibson   e4d37  0.7  0.1   240   160 RUN     0:00    ps -au
  22278. root     74d22  0.6  0.1   168   168 RWAIT   0:08    rlogind
  22279. root     84d0f  0.0  0.1   216   152 RWAIT   0:31    /sprite/daemons/migd -D ...
  22280. root     34d1d  0.0  0.1   152   136 RWAIT   0:07    /sprite/daemons/inetd ...
  22281. root     74d16  0.0  0.0   224     0 RWAIT   0:03    /sprite/daemons/lpd
  22282. root     84d23  0.0  0.1   168   104 WAIT    0:01    login -h ...
  22283. root     64d15  0.0  0.1   320   144 RWAIT   0:02    sendmail -bd
  22284. root     d4d2f  0.0  ---   ---   --- READY   0:00    /sprite/daemons/cron
  22285. root     24d28  0.0  0.1   168   104 RWAIT   0:02    /sprite/cmds.$MACHINE/lo...
  22286. root     14d0b  0.0  ---   ---   --- EXIT    0:00    cmds/initsprite -b ...
  22287.  
  22288. raid1 65> more /hosts/raid1/crontab
  22289. #5 8,11,14,17,20 * * *  root /c/stats/RAW
  22290. # at 3 Garth's ginger to raid rdist runs
  22291. 0 4 * * * eklee /users/eklee/bin/chksum/at.script
  22292. 0 5 * * * eklee /users/eklee/bin/paritycheckraid
  22293.  
  22294. raid1 66> uptime
  22295.            raid1     sun4   up   3+16:54   inuse  2.85  2.95  2.83 (3+16:54)
  22296.  
  22297. It seems to take 10-20 secs to do ls on a sprite disk.
  22298.  
  22299. garth
  22300.  
  22301.  
  22302. Log-Number: 30516
  22303. Subject: Re: why is raid1 so slow ? 
  22304. Date: Thu, 13 Dec 90 15:13:28 PST
  22305. From: Mary Baker <mgbaker>
  22306.  
  22307. Right now raid1 is going through an infinite recovery loop with allspice.
  22308. I will see why and try to fix it.  I may have to reboot but will tell you so
  22309. if I do.
  22310.  
  22311.  
  22312. Mary
  22313.  
  22314.  
  22315. Log-Number: 30517
  22316. Date: Thu, 13 Dec 90 15:17:35 PST
  22317. From: pmchen (Peter M. Chen)
  22318. Subject: re-sent mail
  22319.  
  22320. Is anyone else getting mail resent from several days ago?  This just happened
  22321. about 3 times in the past 5 minutes.
  22322.  
  22323. Pete
  22324.  
  22325.  
  22326. Log-Number: 30520
  22327. From: mendel (Mendel Rosenblum)
  22328. Subject: Fs_Select broken in new kernel
  22329. Date: Thu, 13 Dec 90 15:53:50 PST
  22330.  
  22331. The Fs_Select system call in the new kernel returns 0 rather than 
  22332. FS_TIMEOUT when the timeout value is exceeded. This causes a panic()
  22333. in the c library routine file socket.c when a connect or accept request
  22334. timesout.  This causes most network programs (rsh, rlogin, telnet) to 
  22335. enter the debugger when the specified host is down. For example:
  22336.  
  22337. jaywalk% sysstat -v
  22338. jaywalk              SPRITE VERSION 1.079 (sun4c) (11 Dec 90 13:58:16)
  22339. jaywalk% rsh lust
  22340. Wait (socket.c): Fs_Select returned 0 ready
  22341.  
  22342. Debug
  22343. jaywalk% 
  22344.  
  22345.         Mendel
  22346.  
  22347.  
  22348. Log-Number: 30531
  22349. Subject: Re: more stuck mail on allspice (whining) 
  22350. Date: Sat, 15 Dec 90 16:14:27 PST
  22351. From: Mike Kupfer <kupfer>
  22352.  
  22353. > You send the message, and sendmail delivers it to everyone but the
  22354. > down machine. 
  22355.  
  22356. Well, what should happen (I confirmed this with Keith Bostic) is that
  22357. sendmail leaves it in the queue, marked with which recipients still
  22358. need a copy, and exits.  The "root" sendmail on allspice checks the
  22359. queue periodically and (eventually) either delivers to the remaining
  22360. recipients or bounces the mail back to the sender.
  22361.  
  22362. At any rate, I figured out why we're getting this sudden rash of
  22363. problems: it's our friend the select() bug.  I even watched it happen:
  22364. sendmail tries to do a connect() to the mailer on a down host, which
  22365. panics because of the select() bug (see the appended stack backtrace).
  22366. Sendmail doesn't clean up, so the message is left locked, and the
  22367. recipient list isn't updated.
  22368.  
  22369. I'm currently running the "root" sendmail on sage, which is running a
  22370. kernel with Ken's select() fix, and it seems to be dealing with
  22371. previous problem cases.  Unfortunately, this doesn't fix the problem
  22372. for the entire system.  We can
  22373.  
  22374. (1) limp along until the next kernel install, manually unjamming the
  22375. mail queue as necessary
  22376.  
  22377. (2) hack sendmail or libc to recover when connect() fails 
  22378.  
  22379. (3) reconfigure sendmail so that only the "root" sendmail actually
  22380. delivers mail.
  22381.  
  22382. What do people think is the right thing to do?  When is the next
  22383. kernel install planned?
  22384.  
  22385. mike
  22386. --
  22387. #0  0x24ea0 in Sig_Send ()
  22388. #1  0x25b38 in panic ()
  22389. #2  0x23bb4 in shutdown ()
  22390. #3  0x22f1c in connect ()
  22391. #4  0x4294 in makeconnection (...) (...)
  22392. #5  0x53dc in openmailer (...) (...)
  22393. #6  0x12960 in smtpinit (...) (...)
  22394. #7  0x4db4 in deliver (...) (...)
  22395. #8  0x63ec in sendall (...) (...)
  22396. #9  0xd690 in dowork (...) (...)
  22397. #10 0xd0b8 in runqueue (...) (...)
  22398. #11 0xa7cc in main (...) (...)
  22399.  
  22400.  
  22401. Log-Number: 30523
  22402. Subject: division by 0 kills Emacs
  22403. Date: Thu, 13 Dec 90 21:17:36 PST
  22404. From: Mike Kupfer <kupfer>
  22405.  
  22406. (/ 0 0) puts Emacs into the debugger.  It should generate a complaint
  22407. about an arithmetic error.
  22408.  
  22409.  
  22410.  
  22411. Log-Number: 30529
  22412. From: mendel (Mendel Rosenblum)
  22413. Subject: Re: xmh dies from not tracking directories 
  22414. Date: Fri, 14 Dec 90 14:06:53 PST
  22415.  
  22416. > Return-Path: kupfer
  22417. > Received: by sprite.Berkeley.EDU (5.59/1.29)
  22418. >     id AA336179; Fri, 14 Dec 90 13:35:04 PST
  22419. > Message-Id: <9012142135.AA336179@sprite.Berkeley.EDU>
  22420. > To: bugs
  22421. > Subject: xmh dies from not tracking directories
  22422. > Date: Fri, 14 Dec 90 13:35:03 PST
  22423. > From: Mike Kupfer <kupfer>
  22424. > xmh randomly dies with messages like
  22425. >   xmh: Error in FOpenAndCheck(/users/kupfer/Mail/drafts/.xmhcache, r)
  22426. >   errno = 2; no such file or directory
  22427. >   exiting.
  22428. > This usually happens when I bring up a new composition window.  (This
  22429. > past time it happened when I brought up a window to compose a new
  22430. > message, then brought up a second window to compose a reply.)
  22431. > I assume this bug is related to xmh's failure to notice changes caused
  22432. > by external sources (e.g., reading mail at home via Emacs).
  22433. > mike
  22434.  
  22435. I've seen this bug reported from people running on Unix.  This means it probably
  22436. not a Sprite bug.
  22437.  
  22438.     Mendel
  22439.  
  22440.  
  22441. Log-Number: 30530
  22442. Subject: dump doesn't fail gracefully
  22443. Date: Fri, 14 Dec 90 15:54:26 PST
  22444. From: Mike Kupfer <kupfer>
  22445.  
  22446. The daily dumps failed last night, apparently due to a media error. 
  22447. Unfortunately, they didn't fail cleanly--new dumps tried to start up
  22448. and then hung.  Doing ls on the Exabyte hangs, too.  Creating a new
  22449. file for the same device doesn't work, so I guess the hang is at a
  22450. fairly low level in the system.
  22451.  
  22452. Here's the message from allspice's syslog:
  22453.  
  22454.   Warning: Exabyte 8200 at SCSI3#2#2 Target 5 LUN 0 error: hardware error - info bytes 0x0 0x0 0x0 0xf8
  22455.   Warning: Exabyte Tape Motion error
  22456.   Warning: Exabyte 8200 at SCSI3#2#2 Target 5 LUN 0 error: media error - info bytes 0x0 0x0 0x0 0xf8
  22457.   Exabyte File Mark Error
  22458.  
  22459. The messages in the dump log are
  22460.  
  22461.   tar.gnu: can't write to - : I/O error
  22462.   line = 651
  22463.   Received SIGPIPE signal, terminating abnormally
  22464.   SIGPIPE: tar exited with code = 0x3
  22465.   Dump: tar exited with nozero status: 3: invalid argument
  22466.   Dump: Received SIGPIPE signal, terminating abnormally: I/O error
  22467.   opening /dev/exb1.nr as archive file
  22468.   rewinding tape ...
  22469.   done rewinding tape.
  22470.   reading tape label
  22471.   rewinding tape ...
  22472.   done rewinding tape.
  22473.   Using tape #54
  22474.   TapeLabel=|SPRITE DUMP TAPE #54
  22475.  
  22476. (etc.)
  22477.  
  22478.  
  22479. Log-Number: 30539
  22480. Date: Sun, 16 Dec 90 13:39:35 PST
  22481. From: shirriff (Ken Shirriff)
  22482. Subject: /tmp problems
  22483.  
  22484. When I compile I get:
  22485. cc: Error: Can't create output file: /tmp/ctmpa68196
  22486.   : No such file or directory
  22487. This seems to only happen with migration (pmake -X works).
  22488. I think we had this problem before and it was a locked handle in /tmp,
  22489. but I don't remember how it was fixed.
  22490.  
  22491. Ken
  22492.  
  22493.  
  22494. Log-Number: 30540
  22495. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  22496. Date: Sun, 16 Dec 1990 13:44:07 PST
  22497. Subject: Re: /tmp problems
  22498.  
  22499. This is probably related to the fact that /tmp is no longer a remote
  22500. link, but a directory. Perhaps some of the machines out there are
  22501. confused.  I'll try and delete the prefix on all up hosts.
  22502.  
  22503. John
  22504.  
  22505.  
  22506.  
  22507. Log-Number: 30541
  22508. Date: Sun, 16 Dec 90 16:48:31 PST
  22509. From: tve (Thorsten von Eicken)
  22510. Subject: nfsmount /home/gingre/sprite was in DEBUG
  22511.  
  22512.  
  22513.  
  22514.  
  22515. Log-Number: 30542
  22516. Subject: fenugreek died with a deadlock
  22517. Date: Sun, 16 Dec 90 21:45:18 PST
  22518. From: Mike Kupfer <kupfer>
  22519.  
  22520. I found fenugreek in the monitor.  It apparently went into the
  22521. debugger, and someone found it with the video off and tried L1-A.  I
  22522. couldn't put it back into the debugger, so all I can tell you is what
  22523. was on the console.  It was running the 1.079 kernel.
  22524.  
  22525.   Fatal Error: Deadlock!!!(netRouteMutex @ 0xe09caf0)
  22526.   Holder PC: 0xe05c5c0 Current PC: 0xe05cdf0
  22527.   Holder PCB @ 0xe258eac Current PCB @ 0xe0c64fc
  22528.   Error type 47 while syncing disks.
  22529.   Entering debugger...
  22530.  
  22531. mike
  22532.  
  22533.  
  22534. Log-Number: 30543
  22535. Date: Mon, 17 Dec 90 09:34:01 PST
  22536. From: ouster (John Ousterhout)
  22537. Subject: Jaywalk reboot
  22538.  
  22539. When I came in this morning I had difficulty doing migrated compilations:
  22540. I kept getting "*** Error code 5" messages that aborted the make.  I
  22541. tracked the problem down to jaywalk:  everything migrated to jaywalk
  22542. was getting this error.  I figured jaywalk must still have something
  22543. stale from the big reboot on Saturday so I put it into the debugger
  22544. and attempted to reboot it remotely.  Unfortunately I gave it the
  22545. wrong boot string, so it didn't reboot correctly.  In any case, this
  22546. fixed the problems with pmake.
  22547.                     -John-
  22548.  
  22549.  
  22550. Log-Number: 30544
  22551. Date: Mon, 17 Dec 90 11:21:41 PST
  22552. From: mendel (Mendel Rosenblum)
  22553. Subject: pmake error message
  22554.  
  22555.  
  22556. If you type make or pmake in a directory with no Makefile you get the 
  22557. error message:
  22558.  
  22559. jaywalk% make
  22560. --- .BEGIN ---
  22561. you cannot compile for a ds3100 on this machine
  22562. exit 1
  22563. *** Error code 1
  22564. make: 1 error
  22565. jaywalk% 
  22566.  
  22567. This is kinda confusing.   
  22568.  
  22569.     Mendel
  22570.  
  22571.  
  22572. Log-Number: 30545
  22573. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  22574. Date: Mon, 17 Dec 1990 11:37:42 PST
  22575. Subject: allspice crash
  22576.  
  22577.  
  22578. Allspice crashed last evening.  It would not respond to the console or
  22579. the network.  It was not in the debugger so I couldn't debug it.
  22580. I had to use the watchdog reset button.  I looked at the first 
  22581. register window for addresses that were in the text segment.  Here is
  22582. what I found.
  22583.  
  22584.  
  22585. tbr    0xf6007060    reserveSpace
  22586. i7        0xf608ef70    FreeIndirectBlock      
  22587. l3    0xf6007060    reserveSpace
  22588. o2    0xf60f94cc    partFreeListHdr
  22589. o7    0xf60396fc    FscacheUnlockBlock
  22590.  
  22591.  
  22592. The rest of the registers didn't have anything interesting.
  22593.  
  22594. John
  22595.  
  22596.  
  22597. Log-Number: 30546
  22598. Date: Mon, 17 Dec 90 12:00:21 PST
  22599. From: dedood (Paul de Dood)
  22600. Subject: Finger information
  22601.  
  22602. For the past several days I've been trying to run chfn to change my finger
  22603. information, but I keep getting:
  22604. chpass: password file busy -- try again later.
  22605. I'm not just being unlucky, am I?
  22606.  
  22607. Thanks,
  22608. Paul.
  22609.  
  22610.  
  22611. Log-Number: 30547
  22612. Date: Mon, 17 Dec 90 12:15:33 PST
  22613. From: shirriff (Ken Shirriff)
  22614. Subject: Re: Finger information
  22615.  
  22616. The lock file (/etc/ptmp) for the password file was still around from
  22617. Tuesday, for some reason.  I deleted it.  chfn should now work.
  22618.  
  22619.  
  22620. Log-Number: 30548
  22621. Date: Mon, 17 Dec 90 16:02:18 PST
  22622. From: eklee (Edward K. Lee)
  22623. Subject: my mail's disappeared!!!
  22624.  
  22625. Espionage was having trouble with allspice so I rebooted espionage and when
  22626. I checked my mail, there was only one message there.  I haven't overridden
  22627. my mail file incase you want to look at it.
  22628. (Before rebooting espionage I was trying to read my mail, but it was so slow
  22629. that I quit (with ^D).  Then I L1-A'ed (I forgot to sync beforehand).)
  22630. Could someone look at this as soon as possible?  I really need my mail.
  22631.  
  22632. Thanks,
  22633. Ed
  22634.  
  22635. P.S. here's what's in my mail file.
  22636. -----
  22637. >N  1 pattrsn@peppeFrom da  Fri Dec  7 18:02  20/773  "Files in lost+found"
  22638. & 1
  22639. Message 1:
  22640. >From pattrsn@pepper.Berkeley.EDU Fri Dec  7 18:02:44 1990
  22641. Date: Fri, 7 Dec 90 18:01:29 PST
  22642. >From: pattrsn@peppeFrom daemon Mon Dec 17 15:29:55 1990
  22643. Date: Mon, 17 Dec 90 15:26:22 PST
  22644. >From: root (The Sprite God)
  22645. To: root
  22646. Subject: Files in lost+found
  22647.  
  22648. You have files in the following lost+found directories.  These files were
  22649. recovered during reboot.  Please examine the following directories
  22650. and recover or delete your files.
  22651. //lost+found
  22652.  
  22653. &    
  22654. ----
  22655.  
  22656.  
  22657. Log-Number: 30554
  22658. Date: Mon, 17 Dec 90 19:12:31 PST
  22659. From: shirriff (Ken Shirriff)
  22660. Subject: Re: my mail's disappeared!!!
  22661.  
  22662. I modified the mail program (Mail) to do a fsync() after rewriting the
  22663. user's mail file.  This should help prevent Ed's problem from happening
  22664. again.
  22665.  
  22666. Ken
  22667.  
  22668.  
  22669. Log-Number: 30551
  22670. From: mendel (Mendel Rosenblum)
  22671. Subject: Allspice crash report
  22672. Date: Mon, 17 Dec 90 17:35:18 PST
  22673.  
  22674. Allspice hung up this afternoon and wouldn't respond to any external 
  22675. stimulus short of the watch dog reset button.  The last console messages
  22676. before the crash involved "Reinit recv unit"s and recovery.  The machine
  22677. was being pounded by a 200 megabyte process on treason.  At the watchdog
  22678. reset, the PC was at:
  22679.  
  22680. 0xf6039130 <Fscache_FetchBlock>:    save %sp, -128, %sp
  22681.  
  22682. and the last several stack frames looked like:
  22683.  
  22684. 0xf608edb8 <FetchIndirectBlock+504>:    call 0xf6039130 <Fscache_FetchBlock>
  22685. 0xf608eabc <MakePtrAccessible+92>:    call 0xf608ebc0 <FetchIndirectBlock>
  22686. 0xf608e6ec <OfsGetFirstIndex+284>:    call 0xf608ea60 <MakePtrAccessible>
  22687. 0xf608a0f0 <Ofs_BlockAllocate+264>:    call 0xf608e5d0 <OfsGetFirstIndex>
  22688. 0xf6038290 <Fsdm_BlockAllocate+168>:    mov %l6, %o5
  22689. 0xf603dd6c <Fscache_Write+484>:    call %l0
  22690. 0xf6044d3c <Fsio_FileWrite+404>:    call 0xf603db88 <Fscache_Write>
  22691.  
  22692. The last trap in the TBR registers was 0x050 or window overflow.  It was
  22693. like it was stuck in an infinite window overflow loop.  Next time this
  22694. happens, the person looking at it should record the last stack pointer
  22695. %o6 or %sp values. 
  22696.  
  22697.  
  22698.     Mendel
  22699.  
  22700. ps. Less we think the problem has disappeared, /mic got a SCSI bus DMA error
  22701.     during fscheck's read of a descriptor block.
  22702.  
  22703.  
  22704. Log-Number: 30552
  22705. Subject: tcsh ^D depends on command line?
  22706. Date: Mon, 17 Dec 90 18:16:13 PST
  22707. From: Mike Kupfer <kupfer>
  22708.  
  22709. If I type ^D to tcsh, to ask it for the possible file name
  22710. completions, the answer I get back depends on what I typed previously
  22711. in the line.  This seems wrong, and it's unlike other shells I've used
  22712. that have file name completion.
  22713.  
  22714. mike
  22715. --
  22716.   sage% cd /sprite/src
  22717.   sage% foreach d ( a^D
  22718.   a2p        ali        anno       ar.new     asplosstat atrm       
  22719.   addhost    alias      appres     ar.old     at         awk        
  22720.   aid        aliases    aquarium   as         atobm      
  22721.   alarm      alloc      ar         as.old     atq        
  22722.   sage% ls a^D
  22723.   admin/     adobecmds/ attcmds/   
  22724.  
  22725.  
  22726. Log-Number: 30553
  22727. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  22728. Date: Mon, 17 Dec 1990 18:19:57 PST
  22729. Subject: Re: tcsh ^D depends on command line?
  22730.  
  22731. tcsh also does command completion, which is what you are seeing in
  22732. the first example.   You can argue that it shouldn't be doing
  22733. command completion inside of a list like that, but perhaps they
  22734. want it to work that way.
  22735.  
  22736. John
  22737.  
  22738.  
  22739.  
  22740. Log-Number: 30556
  22741. From: mendel (Mendel Rosenblum)
  22742. Subject: Anise crashed with RpcDeamon bug
  22743. Date: Tue, 18 Dec 90 16:56:06 PST
  22744.  
  22745. Anise crashed when it tried to reinsert the RpcDaemons timeout queue entry
  22746. on the callback list.   This bug has been fixed.  
  22747.  
  22748.     Thanks,
  22749.     Mendel
  22750.  
  22751.  
  22752. Log-Number: 30559
  22753. Date: Wed, 19 Dec 90 08:48:30 PST
  22754. From: ouster (John Ousterhout)
  22755. Subject: Anise crash
  22756.  
  22757. When I came in this morning Anise was in the debugger with the message
  22758. "HandleRelease, handle <1,42,2,836457> "bit" not locked".  I rebooted
  22759. it, although it occurs to me in retrospect that I probably could have
  22760. just continued it.  If there had been instructions on the machine for
  22761. how to take a core dump with kgcore I would have done it, but there
  22762. weren't so I didn't.  Given the advent of the holiday season and the
  22763. disappearance of many of the Sprite maintainers, how about updating the
  22764. instructions on both Anise and Allspice and adding instructions to
  22765. Assault, if there aren't any there already?  Mendel, since you're the
  22766. author of kgcore, can you take care of this?  Thanks.
  22767.  
  22768.                     -John-
  22769.  
  22770.  
  22771. Log-Number: 30560
  22772. From: mendel (Mendel Rosenblum)
  22773. Subject: Re: rcp bug report 
  22774. Date: Wed, 19 Dec 90 10:02:22 PST
  22775.  
  22776. > Return-Path: krste@ICSI.Berkeley.EDU
  22777. > Received: from icsib13.Berkeley.EDU by sprite.Berkeley.EDU (5.59/1.29)
  22778. >     id AA659016; Wed, 19 Dec 90 08:46:17 PST
  22779. > Received: by icsib13.Berkeley.EDU (4.1/SMI-4.0)
  22780. >     id AA08380; Wed, 19 Dec 90 02:07:19 PST
  22781. > Date: Wed, 19 Dec 90 02:07:19 PST
  22782. > From: krste@ICSI.Berkeley.EDU ( Krste Asanovic)
  22783. > Message-Id: <9012191007.AA08380@icsib13.Berkeley.EDU>
  22784. > To: root@sprite.Berkeley.EDU
  22785. > Subject: rcp bug report
  22786. > The following command line causes rcp to give a segment violation
  22787. > rcp icsib13:somefile ::
  22788. > Sometimes it faults straight away, other times if you suspend it, then
  22789. > background it, it dies as well.
  22790. > Krste
  22791. > P.S. I use tcsh.
  22792.  
  22793. The segment fault was caused by the "rcp" problem doing a strlen() call on a
  22794. NULL pointer. This "works" on a VAX running BSD because the address 0 is 
  22795. readable and contains zero.  This doesn't work on most other systems because
  22796. it a stupid idea to have NULL accessible.  If patched rcp and reinstalled it
  22797. so it doesn't crash anymore.  Thanks for the bug report. In the future, you
  22798. might consider sending bug reports like this one to "bugs@sprite" rather than
  22799. "root@sprite". Mail to the "bugs" alias is less likely to be ignored because it
  22800. is logged and discussed at every Sprite meeting.
  22801.  
  22802.     Mendel
  22803.  
  22804. ps. I looked on okeefe and this has been fixed in the 4.4 source tree.
  22805.  
  22806.  
  22807. Log-Number: 30563
  22808. From: mendel (Mendel Rosenblum)
  22809. Subject: Re: msgs problem 
  22810. Date: Wed, 19 Dec 90 16:07:49 PST
  22811.  
  22812. > Return-Path: bmiller
  22813. > Received: by sprite.Berkeley.EDU (5.59/1.29)
  22814. >     id AA340530; Wed, 19 Dec 90 15:51:28 PST
  22815. > Date: Wed, 19 Dec 90 15:51:28 PST
  22816. > From: bmiller (Bob Miller)
  22817. > Message-Id: <9012192351.AA340530@sprite.Berkeley.EDU>
  22818. > To: bugs
  22819. > Subject: msgs problem
  22820. > I'm having a problem with msgs...I can get the heading information, but
  22821. > cannot access the actual message.  It just goes on to the next message
  22822. > heading.  Any thoughts???????????????
  22823.  
  22824. The problem is that seeking a file to the current offset plus 0 when file is on
  22825. a peusdo file system and the program is running on a decStation doesn't work.
  22826. In C that is:
  22827.     lseek(fd, 0, L_INCR) 
  22828. always returns -1 with errno set to invalid argument. Note that this only happens
  22829. when using offset of 0 and when running on a decStation.
  22830.  
  22831. Bob, until we get this fixed you can read msgs from any non-DEC machine such as
  22832. allspice or any sparcStation.
  22833.  
  22834.     Mendel
  22835.  
  22836.  
  22837. Log-Number: 30565
  22838. Date: Sun, 23 Dec 90 00:04:04 PST
  22839. From: tve (Thorsten von Eicken)
  22840. Subject: cc -V broken on ds3100
  22841.  
  22842. cc -V is supposed ti print version and command line flag info. It uses
  22843. /usr/ucb/what which we don't have on sprite. Copying the binary from
  22844. dill doesn't work for some obscure reason.
  22845.     TvE
  22846.  
  22847.  
  22848.